これまでRの基本的な使い方について紹介しました。

はじめてのRStudio。基本的な画面の説明をします

Rコマンダーの基本的な画面の説明を行います

Rstudioのプロジェクトについて解説します

R の「変数」について説明します。

医療統計をRで使うために必要な「データフレーム」にの考え方ついて

Rで使うパッケージのインストールについて紹介します。

今回は上記の復習として実際にエクセルデータを読み込んでデータの型の変更を行ってみたいと思います。

しっかりRを使っている人はデータハンドリング(データを整理したり、wideデータ⇔longデータの変換)に関してもRを使いますし使うことを推奨されていますが、自分も含めRが初心者で「研究ですぐにでも使いたい」という方は「Excelでデータを整理してRで統計解析する」というのもありなのかなと思っています。

その場合は今回の記事である程度準備できると思います。

スクリーンショット 2019-02-04 0.50.30

ここで復習すること

・プロジェクトの作成
・スクリプトウィンドウの使い方
・エクセルデータの読み込み
・データの確認
・型の変更


まだ説明できていないこと

データハンドリング
・wideデータとlongデータ
・新しい列の作成(合計など)
・欠損値の取り扱い方




1.プロジェクトを作る

File → New Projectを選ぶ
スクリーンショット 2018-12-24 17.50.53


New Directoryを選択
スクリーンショット 2018-12-24 17.51.11


New Projectを選択
スクリーンショット 2018-12-24 17.51.18


今回は「練習01」という名前のプロジェクトを作ります。
スクリーンショット 2019-02-04 1.32.32

スクリーンショット 2019-02-04 1.37.46

プロジェクトができましたがスクリプトがありません。
プロジェクトを作ります。

スクリーンショット 2019-02-04 1.51.40

完成!
スクリーンショット 2019-02-04 1.51.57

スクリプトファイルも名前をつけて保存しておきます。
スクリーンショット 2019-02-04 20.38.53


2.Excelファイルを読み込む

仮のエクセルデータを作成しています。
文字化け対策に「英語」のタブも用意しています。


data01.xlsx 


スクリーンショット 2019-02-04 3.27.54


ダウンロードした後、Excelファイルをプロジェクトで作成したフォルダに入れます。
するとFilesタブにエクセルファイルが追加されています。
スクリーンショット 2019-02-04 20.40.09


Excelファイルを読み込むにはImport Datasetを選択します。
スクリーンショット 2019-02-04 20.41.23


Nameで名前を作ります。ここではdata01で進めます。
Sheetで使うタブを選択しましょう。
選択したら右の赤枠を丸ごとコピーしてスクリプトに貼り付けておきましょう。
そうすればExcelファイルを再読込する時にこの作業を行わなくてよくなります。
スクリーンショット 2019-02-04 20.46.45

スクリーンショット 2019-02-04 20.59.43
スクリーンショット 2019-02-04 20.57.16

これでdata01というdata.tableが完成しました。


3.データの確認

data01のデータを確認してみましょう

head(data01)
str(datao1)
スクリーンショット 2019-02-04 21.05.35

head関数は最初数行を表示してstrは各ベクトルの情報を表示してくれます。


summary(data01)
スクリーンショット 2019-02-04 21.10.50

summaryは数値やfactor型の要約を出してくれます。標準偏差は出ません。

Min:最小値
1st Qu.:第一四分位数
Median:中央値
Mean:平均
3rd Qu.:第三四分位数
Max:最大値

氏名・性別はclassがcharacterなので要約が出ていません。
また歩行は0:非自立、1:自立とカテゴリー変数なのですが、数値として認識されています。
次は性別・歩行をfactorに変更します。


4.カテゴリー変数をfactorに変更する

data01$性別 <- as.factor(data01$性別)
data01$歩行 <- as.factor(data01$歩行)

str(data01$性別)
str(data01$歩行)
スクリーンショット 2019-02-04 21.25.45

data.frameの列を取り出すのは$もしくは[[ ]]でした。
factorに変更するにはas.factor関数を使います。

もう一度summaryを見てみましょう。

summary(data01)
スクリーンショット 2019-02-04 21.28.54

性別と歩行がカテゴリーとしてみなされています。

性別を見ると女性→男性の順になっています。
これで良ければこれでいいのですが、もし男性→女性に並べ替えたい時はas.factor関数ではなくfactor関数を使います。

(他にも「自立・非自立」やFIMなど評価の並ぶ順番がある場合はも並べ替えることがあります)

data01$性別 <- factor(data01$性別, levels = c("男性","女性"))
str(data01$性別)

スクリーンショット 2019-02-04 21.34.16


最後にsummary関数で確認します。

summary(data01)

性別が男性→女性の並びになっています。

スクリーンショット 2019-02-04 21.49.17


ちなみに標準偏差をまとめて出す方法は次回紹介予定ですが、以下に1例を紹介します。

library(tidyverse)
data01 %>% #data01に対して
  select(3:8) %>% #3列目(年齢)〜8列目(MMSE)までを選択し
  apply(., 2, sd) #それぞれの列で標準偏差を求めて!

スクリーンショット 2019-02-04 22.15.29


%>%とか見たこと無いものが出てきましたがまた次回ということで。


まとめ

今回の内容は全て今までの記事で紹介された内容の復習です。。

難易度はいかがでしたでしょうか。

ここまでがスムーズにできると、後の分析やグラフ作成がスムーズに進むと思います

わからなかったところは以下にリンクを再掲していますので確認してみてください。


はじめてのRStudio。基本的な画面の説明をします

Rコマンダーの基本的な画面の説明を行います

Rstudioのプロジェクトについて解説します

R の「変数」について説明します。

医療統計をRで使うために必要な「データフレーム」にの考え方ついて

Rで使うパッケージのインストールについて紹介します。