タグ:プロジェクト

これまでRの基本的な使い方について紹介しました。

はじめてのRStudio。基本的な画面の説明をします

Rコマンダーの基本的な画面の説明を行います

Rstudioのプロジェクトについて解説します

R の「変数」について説明します。

医療統計をRで使うために必要な「データフレーム」にの考え方ついて

Rで使うパッケージのインストールについて紹介します。

今回は上記の復習として実際にエクセルデータを読み込んでデータの型の変更を行ってみたいと思います。

しっかりRを使っている人はデータハンドリング(データを整理したり、wideデータ⇔longデータの変換)に関してもRを使いますし使うことを推奨されていますが、自分も含めRが初心者で「研究ですぐにでも使いたい」という方は「Excelでデータを整理してRで統計解析する」というのもありなのかなと思っています。

その場合は今回の記事である程度準備できると思います。

スクリーンショット 2019-02-04 0.50.30

ここで復習すること

・プロジェクトの作成
・スクリプトウィンドウの使い方
・エクセルデータの読み込み
・データの確認
・型の変更


まだ説明できていないこと

データハンドリング
・wideデータとlongデータ
・新しい列の作成(合計など)
・欠損値の取り扱い方




1.プロジェクトを作る

File → New Projectを選ぶ
スクリーンショット 2018-12-24 17.50.53


New Directoryを選択
スクリーンショット 2018-12-24 17.51.11


New Projectを選択
スクリーンショット 2018-12-24 17.51.18


今回は「練習01」という名前のプロジェクトを作ります。
スクリーンショット 2019-02-04 1.32.32

スクリーンショット 2019-02-04 1.37.46

プロジェクトができましたがスクリプトがありません。
プロジェクトを作ります。

スクリーンショット 2019-02-04 1.51.40

完成!
スクリーンショット 2019-02-04 1.51.57

スクリプトファイルも名前をつけて保存しておきます。
スクリーンショット 2019-02-04 20.38.53


2.Excelファイルを読み込む

仮のエクセルデータを作成しています。
文字化け対策に「英語」のタブも用意しています。


data01.xlsx 


スクリーンショット 2019-02-04 3.27.54


ダウンロードした後、Excelファイルをプロジェクトで作成したフォルダに入れます。
するとFilesタブにエクセルファイルが追加されています。
スクリーンショット 2019-02-04 20.40.09


Excelファイルを読み込むにはImport Datasetを選択します。
スクリーンショット 2019-02-04 20.41.23


Nameで名前を作ります。ここではdata01で進めます。
Sheetで使うタブを選択しましょう。
選択したら右の赤枠を丸ごとコピーしてスクリプトに貼り付けておきましょう。
そうすればExcelファイルを再読込する時にこの作業を行わなくてよくなります。
スクリーンショット 2019-02-04 20.46.45

スクリーンショット 2019-02-04 20.59.43
スクリーンショット 2019-02-04 20.57.16

これでdata01というdata.tableが完成しました。


3.データの確認

data01のデータを確認してみましょう

head(data01)
str(datao1)
スクリーンショット 2019-02-04 21.05.35

head関数は最初数行を表示してstrは各ベクトルの情報を表示してくれます。


summary(data01)
スクリーンショット 2019-02-04 21.10.50

summaryは数値やfactor型の要約を出してくれます。標準偏差は出ません。

Min:最小値
1st Qu.:第一四分位数
Median:中央値
Mean:平均
3rd Qu.:第三四分位数
Max:最大値

氏名・性別はclassがcharacterなので要約が出ていません。
また歩行は0:非自立、1:自立とカテゴリー変数なのですが、数値として認識されています。
次は性別・歩行をfactorに変更します。


4.カテゴリー変数をfactorに変更する

data01$性別 <- as.factor(data01$性別)
data01$歩行 <- as.factor(data01$歩行)

str(data01$性別)
str(data01$歩行)
スクリーンショット 2019-02-04 21.25.45

data.frameの列を取り出すのは$もしくは[[ ]]でした。
factorに変更するにはas.factor関数を使います。

もう一度summaryを見てみましょう。

summary(data01)
スクリーンショット 2019-02-04 21.28.54

性別と歩行がカテゴリーとしてみなされています。

性別を見ると女性→男性の順になっています。
これで良ければこれでいいのですが、もし男性→女性に並べ替えたい時はas.factor関数ではなくfactor関数を使います。

(他にも「自立・非自立」やFIMなど評価の並ぶ順番がある場合はも並べ替えることがあります)

data01$性別 <- factor(data01$性別, levels = c("男性","女性"))
str(data01$性別)

スクリーンショット 2019-02-04 21.34.16


最後にsummary関数で確認します。

summary(data01)

性別が男性→女性の並びになっています。

スクリーンショット 2019-02-04 21.49.17


ちなみに標準偏差をまとめて出す方法は次回紹介予定ですが、以下に1例を紹介します。

library(tidyverse)
data01 %>% #data01に対して
  select(3:8) %>% #3列目(年齢)〜8列目(MMSE)までを選択し
  apply(., 2, sd) #それぞれの列で標準偏差を求めて!

スクリーンショット 2019-02-04 22.15.29


%>%とか見たこと無いものが出てきましたがまた次回ということで。


まとめ

今回の内容は全て今までの記事で紹介された内容の復習です。。

難易度はいかがでしたでしょうか。

ここまでがスムーズにできると、後の分析やグラフ作成がスムーズに進むと思います

わからなかったところは以下にリンクを再掲していますので確認してみてください。


はじめてのRStudio。基本的な画面の説明をします

Rコマンダーの基本的な画面の説明を行います

Rstudioのプロジェクトについて解説します

R の「変数」について説明します。

医療統計をRで使うために必要な「データフレーム」にの考え方ついて

Rで使うパッケージのインストールについて紹介します。









RStudioには「プロジェクト」という機能があります。

プロジェクトを使うとファイルやデータの整理が行いやすくなります。

プロジェクトに慣れると「もしかしたらEZRなどのRコマンダーよりも使いやすいかも」と思うかもしれません。

今回はプロジェクトの初心者向けの使い方を紹介します。


プロジェクトを作ってみる

File → New Projectを選ぶ
スクリーンショット 2018-12-24 17.50.53


New Directoryを選択
スクリーンショット 2018-12-24 17.51.11


New Projectを選択
スクリーンショット 2018-12-24 17.51.18


プロジェクトの名前と保存先のフォルダを選択
スクリーンショット 2018-12-24 17.51.26



完成
スクリーンショット 2018-12-24 17.51.37



何をしたのか?


上記画面をよく見るとプロジェクトの名前でフォルダが作られています。確かに先はどの画面ではフォルダ名と場所を指定したようです。


メリット

プロジェクトを作ると1つのプロジェクトには1つのフォルダという習慣がつくようになります。すると以下のようなメリットがでてきます。

  1. スクリプト(プログラム)が保存しやすく、途中でやめても再開しやすい
  2. スクリプトをタブで複数管理できる
  3. 分析で使うExcelのファイルが簡単に確認・編集できる
  4. 結果(表やグラフの画像)を保存する時、自動的にこのフォルダに保存される

1.スクリプト(プログラム)が保存しやすく、途中でやめても再開しやすい

EZRなどのRコマンダーを使う方は作業を途中で中断する場合はどうするでしょうか。スクリプトを保存するという方もいると思いますが、Rに慣れていないと「もう一回最初からやり直す」という方が多いのではないでしょうか。また仮説検証的研究であれば目的の統計以外行うことはないですが、対数変換やグラフの作成、もしくは仮設探索的研究であればRを使ったいろいろな作業があります。

Rコマンダーで1からやり直すとなると途中で止められないですし、翌年に研究を行う時「あれっ、前どうしたっけ・・・?」となりやすいです。

RStudioでプログラムを作るようになると作業や分析の過程が残るので途中で中断することもできます。



2.スクリプトをタブで複数管理できる

スクリーンショット 2018-12-25 9.42.19
1つのスクリプトに全部のプログラムを入れるとすごく長くなってしまいます。1つのプロジェクトに複数のスクリプトやR Markdownが保存できるので以下のような使い方ができます。

  • 勉強しているRの本でプロジェクトを作り、章毎にスクリプトをつくる
  • 『試し』ファイルに色々作ったグラフや統計を残し、実際の研究で使う分だけを『本番』にコピペしておく
  • 『Markdown』で直接WordやPowerPointのファイルを作ってしまう

Rコマンダーはスクリプトを使い分けるのは得意ではない印象を受けます。



3.分析で使うExcelのファイルが簡単に確認・編集できる

プロジェクトのフォルダにExcelのデータを入れておくと非常に便利です。いちいち他の画面に変えなくてもExcelを開くことができるので、その場でファイルの確認や操作が行なえます。

スクリーンショット 2018-12-25 11.13.28


Rにエクセルファイルを読み込ませる時も「Import Dataset」を選ぶと簡単にできます。

スクリーンショット 2018-12-25 11.08.31

スクリーンショット 2018-12-25 11.24.01

Rの中で使う名前を決め、複数シートがあったり選択範囲が必要な場合は選択すればすぐに取り込めます。


4.結果(表やグラフの画像)を保存する時、自動的にこのフォルダに保存される

グラフを保存する時もプロジェクトで行っていると便利です。

スクリーンショット 2018-12-25 11.38.37
Save as Imageを選択



スクリーンショット 2018-12-25 11.38.50

ファイル名と画像のサイズを決める



スクリーンショット 2018-12-25 11.38.58

完成したファイルは特に設定を変えなければプロジェクトのフォルダに保存されるので、他の研究のファイルと混ざることもありません。



まとめ

今回はプロジェクトの基本的な使い方を説明しました。もっと使える人はgitでプロジェクトの管理を行うなど色々なことができるかもしれませんが、研究で医療統計を使ったりRの勉強を行う程度であればこのような使い方でも十分ではないかなと思います。

RStudioを使う場合はぜひプロジェクトも活用してみてください!

↑このページのトップヘ