カテゴリ:統計 > R

第3章ではggplot2を使ったグラフの作り方を紹介しています。


【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数


今回はヒストグラムを紹介します。


1.データの読み込み

今回もggplotパッケージが含まれているtidyverseパッケージを読み込みます。
#tidyverseパッケージを読み込みます。

if(!require(tidyverse)) install.packages("tidyverse", repos = "http://cran.us.r-project.org")

#既にtidyverseパッケージをインストールしている方は以下でもOK

library(tidyverse)

#データ取り込みます。今回はdatという変数にデータを入れます

url <- "https://github.com/mitti1210/myblog/blob/master/heights.csv?raw=true"
dat <- read.csv(url)




2.ヒストグラムとは?

ヒストグラムはデータの分布を確認することができます。

スクリーンショット 2019-07-12 15.00.10
まず1本1本の縦棒のことを"bin"といいます。
これをみると身長140台〜190台の分布で、170cm付近が一番多そうです。
ただ170cmを中心にすると左右対称ではない印象を受けます。



ヒストグラムを見ることでわかることの例

分布がどうなっているか?

分布には正規分布やポワソン分布など様々な分布があります
正規分布かどうかを確認するときにはヒストグラムで直接データを確認することが必要です。
他にも対数正規分布やポワソン分布など色々な分布があります。


外れ値がないか?

とんでもないところにデータがあれば、それが偶然飛び抜けたデータなのか入力ミスなのか確認することをおすすめします。

カテゴリーごとの分布がわかる

もし山が2つある分布だったとします。
その場合、もしかしたら2つ以上の別のグループが潜んでいるかもしれません。
各グループに分けるとそれぞれのグループで正規分布になっているかもしれません。

また各グループごとの比較をするときにも使えます。
下は同じデータですが棒グラフとヒストグラム、どちらが見やすいでしょうか?

スクリーンショット 2019-07-12 15.57.34




2.ヒストグラムの基本的な作り方

ggplot2でヒストグラムを作る時にはgeom_histogram関数を使います。
ggplot()+
theme_gray(base_family = "HiraKakuPro-W3")+
geom_histogram(aes(x = 身長), bins = 30, data = dat)


スクリーンショット 2019-07-12 17.55.09

ヒストグラムのy軸は個数なので指定の必要がありません。

3.bins, binwidthについて

ヒストグラムはbin1つの幅を指定する必要があります。
幅を変えると見え方が変わります。

bins = binの数を指定する
binwidth = binの幅を指定する

何も指定しないと自動的にbins = 30としてグラフを作ります。


スクリーンショット 2019-07-12 14.58.43
binsの数を減らすと1つの幅が広くなることがわかります。


スクリーンショット 2019-07-12 14.58.48
binwidthを増やすと1本の幅が広くなっているのがわかります。

どのbins(またはbinwidth)がいいかは数字を変えグラフをみて傾向を探りながら見つけてみてください。


4.線の色を赤にする

ggplot()+
theme_gray(base_family = "HiraKakuPro-W3")+
geom_histogram(aes(x = 身長), color = "red", bins = 30, data = dat)

binの周りの線の色を変えるにはcolor="○○"で指定します。
代表的な色なら"red"などが使えますが、color = "#FFFFFF"のような指定もできます。


スクリーンショット 2019-07-12 14.58.26


5.binの色を赤にする

binの中の色を変えるにはfillを使います。

ggplot()+
theme_gray(base_family = "HiraKakuPro-W3")+
geom_histogram(aes(x = 身長), fill = "red", bins = 30, data = dat)
スクリーンショット 2019-07-12 14.58.30

6.alpha = ○○でfillの色を薄くする

ここで周りの線の色を黒にした上で、fillの色を薄くします。
色を薄くするときはalpha = ○○で色を薄くすることができます。
alphaは0〜1の値を入力します。

ggplot()+
theme_gray(base_family = "HiraKakuPro-W3")+
geom_histogram(aes(x = 身長), color = "black", fill = "red", alpha = 0.5, bins = 30, data = dat)

スクリーンショット 2019-07-12 14.59.10



7.グループごとで色分けする

グループごとに色分けするときはaes()の中にfill = グループの列名を入れます。

aes関数に関しては前回の記事のでも説明していますので気になる方はをご参照ください。

fillでグループ分けするときはpositionを指定する必要があります。

①position = "stack" 重ねずに積み上げる
ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+
  geom_histogram(aes(x = 身長, fill = 性別), bins = 30, position = "stack", alpha = 0.7,  data = dat)

②position = "nudge" 色を重ねる
色を重ねるときはalpha = で透過率を上げる必要があります。
ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+
  geom_histogram(aes(x = 身長, fill = 性別), bins = 30, position = "nudge", alpha = 0.7,  data = dat)

スクリーンショット 2019-07-12 20.40.41

スクリーンショット 2019-07-12 14.59.28


8.応用編(グループ毎に別のグラフにする)

スクリーンショット 2019-07-13 7.53.20

最後にこのグラフのようにグループ毎にグラフを作る方法を紹介します。

グループ毎にグラフを作るときは主に①facet_grid、②facet_wrapの2つがありますが今回はfacet_gridを紹介します。

facet_grid(縦 ~ 横)という表記をします。

ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+
  geom_histogram(aes(x = 身長, fill = 性別), bins = 30, position = "nudge", alpha = 1,  data = dat)+
  facet_grid(性別 ~ .)

スクリーンショット 2019-07-13 18.59.42

縦に並べるか横に並べるかですが、次の考え方が参考になります。

水平方向の変化を見るグラフは垂直方向、垂直方向の変化を見るグラフは水平方向

今回のヒストグラムは水平方向の変化なので縦に並べる方が比較しやすいことがわかります。


9.まとめ

今回はヒストグラムの基本的な作り方を紹介しました。

最初に「左右対称ではない?」と書きましたが、男性と女性の2つの分布が重なっていることが原因だとわかります。ちなみにこのデータは男性が173±10cm(130人)、女性が157cm±5cm(70人)を組み合わせたデータでした。

統計になれないとExcelで表を作り平均と標準偏差だけ計算して比較したくなりますが、分析する前に分布を確認する習慣のきっかけになれば幸いです。

前回、Rのggplot2を使ってグラフを作成する基本を紹介しました。

今回は散布図を作り方を紹介します。
併せてggplot2を使うのに必要なaes関数にも慣れていきたいと思います。

1.データの読み込み

今回もggplotパッケージが含まれているtidyverseパッケージを読み込みます。
#tidyverseパッケージを読み込みます。
if(!require(tidyverse)) install.packages("tidyverse", repos = "http://cran.us.r-project.org")

#既にtidyverseパッケージをインストールしている方は以下でもOK
library(tidyverse)

#データ取り込みます。今回はdatという変数にデータを入れます
url <- "https://github.com/mitti1210/myblog/blob/master/data01.csv?raw=true"
dat <- read.csv(url)


データを確認します。最初の数行を確認するのはhead関数を使います
head(dat)

歩行(0:非自立、1:自立)と氏名、性別、年齢、身長、体重、SIAS(脳卒中の評価)、BBS(バランスの評価)、MMSE(認知機能の評価)が入っています(架空のデータです)。




2.散布図の基本的な作り方

散布図を作るにはgeom_point関数を使います。

スクリーンショット 2019-05-23 0.07.49


今回はp1という変数名に横軸に身長、縦軸に体重の散布図を作成します。
またtheme〜というのはMacで日本語が□□と文字化けしないようにフォントを指定しています。
Windowsではなくて大丈夫(なはず)です。

p1 <- 
  dat %>%
  ggplot()+
    theme_gray(base_family = "HiraKakuPro-W3")+
    geom_point(aes(x = 身長, y = 体重))
p1
もしくは
p1 <- 
  ggplot()+
    theme_gray(base_family = "HiraKakuPro-W3")+
    geom_point(aes(x = 身長, y = 体重), data = dat)
p1

スクリーンショット 2019-05-23 0.30.30


基本はこれで完成です。ただもっと形を変えてみます。

点の色を赤にしてみる

色を変えるにはcolor =○○を使います。
主要な色であれば"red"や"blue"など色名を""で囲みます。
"#00BFC4"などRGBで指定することもできます。

p2 <- 
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重), color = "red",  data = dat)
p2

スクリーンショット 2019-05-23 0.32.14


点の色を性別で分けてみる

男女別に色分けもできます。
p3 <-
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重, color = 性別), data = dat)
p3

スクリーンショット 2019-05-23 0.33.39


p2とp3の違いがわかるでしょうか?

スクリーンショット 2019-05-23 0.43.27


ここでaes関数に関してもう少し詳しく説明します。


aes関数について

aes関数はデータフレームの変数名グラフに指定する場合に使います
x軸やy軸はイメージしやすいですが色・形・サイズなどに関しては①変数名の値を使いたければaes関数に入れる②変数名を使わず自分で値を指定したい場合はaes関数に入れないとなります。

スクリーンショット 2019-05-23 0.53.37


これを応用するともっとグラフを変えることができます。


点の大きさを変える。形も変える。

点の大きさはsizeで、形はshapeで指定します。

shapeは番号によって形が選べます。

スクリーンショット 2019-05-22 20.29.48


p4 <-
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重, color = 性別), size = 3, shape = 3, data = dat)
p4

スクリーンショット 2019-05-23 0.57.45


形を歩行の値で変更する

shapeをaes関数に入れてみます。

p5 <-
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重, color = 性別, shape = 歩行), size = 3, data = dat)
p5

エラー: A continuous variable can not be mapped to shape

あれっ?エラーが出ました。連続変数はshapeには使えませんよと怒られました

これは歩行が0,1で今のところ連続変数だからです。
確かに上のshapeの番号で1.5といった番号はエラーが出そうです。
なのでこのグラフの中だけ歩行をカテゴリー変数に変えます。factor関数を使います。

p5 <-
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重, color = 性別, shape = factor(歩行)), size = 3, data = dat)
p5

スクリーンショット 2019-05-23 0.59.20


これでエラーが消えました。ただ凡例がfactor(歩行)なんてなってしまいました。

凡例の名前だけでなく、軸やタイトルの名前を変えてみます。
名前を変えるのはlabs関数です。

p6 <-
  ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 身長, y = 体重, color = 性別, shape = factor(歩行)), size = 3, data = dat)+
  labs(x = "身長", y = "体重", color = "性別", shape = "歩行", title = "散布図", caption = "これは仮想のデータです")
p6
スクリーンショット 2019-05-23 1.01.39
これで変わりました。


横軸がカテゴリー変数の場合

横軸がカテゴリー変数でも散布図は使えます。

p7 <- 
  ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 性別, y = 身長), data = dat)
p7

スクリーンショット 2019-05-23 1.08.50


ただ重なってよくわかりません。このように縦軸や横軸にカテゴリー変数を使う場合は点の位置をずらすとわかりやすくなります。

点を重ならないようにずらすのは2つの方法があります。

①geom_point関数の中でposition = "jitter"を追加する

p8 <- 
  ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_point(aes(x = 性別, y = 身長), position = "jitter", data = dat)
p8

スクリーンショット 2019-05-23 1.09.56


②geom_jitter関数を使う
p9 <- 
  ggplot()+
  theme_gray(base_family = "HiraKakuPro-W3")+ 
  geom_jitter(aes(x = 性別, y = 身長, color = 性別), data = dat)
p9

スクリーンショット 2019-05-23 1.10.04

これで男女の分布の違いが見やすくなりました。



まとめ

今回は散布図について紹介しました。
Rを使った散布図はxとyの値を変えるだけで作れますし、colorやshapeを使うことで更に情報を付け加えることができます。

今回のデータセットは他にも変数があるのでぜひ他の散布図も作成してみてください。

前回の記事ではRでグラフを作るときの特徴やメリットについて紹介しました。


今回はggplot2でグラフ実際に作りながら、基本的な考え方について紹介します。



1.準備

ggplot2パッケージを使うためにはtidyverseパッケージを事前に読み込む必要があります。

library(tidyverse)

今回使うデータは以下のデータを使います。
見慣れない関数もありますが、無視して全て実行していただいて構いません。

set.seed(3) 
性別 <- as.integer(runif(200, 0, 2)) 
年齢 <- as.integer(rnorm(200, 65 , 10) + 性別*10)
身長 <- as.integer(rnorm(200, 165, 10) - 性別*10)
体重 <- as.integer(rnorm(200, 65, 10) - 年齢*0.05)
SIAS <- as.integer(rnorm(200, 45, 5))
SIAS <- ifelse(SIAS<=72,SIAS,72)
SIAS <- ifelse(SIAS<0,0,SIAS)
MMSE <- rnorm(200, 30, 5) -年齢*0.1
MMSE <- as.integer(ifelse(MMSE<=30,MMSE,30))
MMSE <- ifelse(MMSE<0,0,MMSE)
BBS <- rnorm(200, 42,5) -0.05*年齢 +0.15*SIAS -0.04*MMSE 
BBS <- as.integer(ifelse(BBS<=56,BBS,56))
BBS <- ifelse(BBS<0,0,BBS)
lin.pred <- 1 - 1.1*年齢 + 0.6*SIAS + 2.5*BBS - 2.5*MMSE
theta <- exp(lin.pred) / (1 + exp(lin.pred))
歩行 <- rbinom(200, 1, theta)
df <- data.frame(性別,年齢,身長,体重,SIAS,BBS,MMSE,歩行)
df <- df %>% 
  mutate(性別 = factor(.$性別, labels = c("男性","女性")),
         歩行 = factor(.$歩行, labels = c("非自立", "自立")))
head(df)


このデータは【演習1】R初心者が統計をかけるための前準備の流れを復習しますで使ったデータと同じですので、以前ダウンロードされた方はこのデータを使っても構いません。

data01.xlsx 
library(tidyverse)
library(readxl)
df <- read_excel("data01.xlsx", sheet = "日本語")
df <- df %>% 
  mutate(性別 = factor(.$性別, levels = c("男性","女性")),
         歩行 = factor(.$歩行, labels = c("非自立", "自立")))
head(df)




2.Rでグラフを作るときの基本的な流れ

前回の復習ですが、グラフを作る基本的な流れは以下の通りです。

Rのグラフの作り方

①基本情報を先に指定する
  • x軸はこれです、y軸はこれです
  • この群で色分け(グループ分け)します。
②作りたいグラフを指定する
  • (上記で指定した情報を元に)
  • ◯◯図を作ります(散布図、棒グラフ、箱ひげ図など)
  • そのグラフの細かい指定をします(マーカーの大きさなど)
③軸、タイトル、ラベルの指定をする
  • x軸のタイトルはこれ、y軸のタイトルはこれ
  • 凡例はこれ
  • タイトルはこれ
  • フォントはこれ
④その他
  • グループごとにグラフを並べるなど
大切なのは事前にxとyなど事前情報を指定することです。
スクリーンショット 2019-02-26 7.52.58

今回は主に①と②の話を中心にします。



3.目標

今回の記事では身長と体重の散布図を作ります。
横軸が身長で縦軸が体重、性別で色分けします。
併せて回帰直線も引いてみます。

完成図
スクリーンショット 2019-02-26 22.23.35



4.ggplot関数


ggplot2パッケージでグラフを作る関数はggplot関数です
ggplot()
スクリーンショット 2019-02-26 20.51.53


右下のplotビューを見ると灰色で何も書かれていませんがこれであっています。

ggplot関数はグラフの土台を作る関数です。この上に1つずつ情報を付け加えていきます。




5.使うデータの指定

ggplotでグラフを作るのにまず必要な情報はどのデータを使うか?です。


データを指定するのは主に2つの方法があります。

①data=を使う
ggplot(data = df)


②%>%を使う
df %>%
ggplot()
第2章で%>%を使ってデータ集計を行った後にそのままggplotでグラフを作る時は便利です。


6.aes関数

基本情報を指定するのがaes関数です。

基本情報とはx軸やy軸の指定など、グラフを作るのに必要な要素になります。

スクリーンショット 2019-02-26 21.55.53

dfというデータでx軸を身長、y軸を体重、性別で色分けするには以下のようにします。
 ggplot(data = df, aes(x = 身長, y = 体重, color = 性別))
スクリーンショット 2019-02-26 22.19.25

右下に目盛が出てきました。まだ実際のグラフを作っていないので中身はありません。



7.geom_関数

土台の準備ができました。次は土台の上にグラフを重ねていきます。

グラフを作るのはgeom_関数です
スクリーンショット 2019-02-26 22.57.27

グラフにはいくつか特徴があります
  • 統計量(平均・標準偏差・中央値など)がどうなってるか知りたい(差を知りたい)
  • AとBの関係性を知りたい(相関を知りたい)
  • データの分布を知りたい(正規分布、それ以外の分布)
それぞれのグラフにどんな特徴があるかは1つずつ説明していく予定です。


今回は散布図と回帰直線を引きます


散布図はgeom_point関数を使います。
ggplot関数は + で繋ぎます。

ggplot(data = df, aes(x = 身長, y = 体重, color = 性別))+
geom_point()
スクリーンショット 2019-02-26 23.32.46

geom_point関数の中は何も入っていませんが、本来aes関数を指定する必要あります。
ggplot関数で既にaesを指定していると、それ以降に続くgeom_関数はggplot関数で指定したaesの情報を引き継ぎます。


次に回帰直線を + で重ねます。
回帰直線はgeom_smooth関数で、回帰直線を引くにはmethod = lmを指定します。
ggplot(data = df, aes(x = 身長, y = 体重, color = 性別))+
geom_point() +
geom_smooth(method = lm)
スクリーンショット 2019-02-26 23.47.32

グラフが追加されました。細かい設定はそれぞれのグラフの説明で行う予定です。



8.theme_関数(macで文字化けを防ぐ)

macで日本語のデータを使うと□□のように文字化けします。
文字化けしないためにはtheme_関数のbase_family=でフォントを指定します。
今回は游ゴシック(Medium)を使います。windowsだと指定は必要ないかもしれません(未確認)。

ggplot(data = df, aes(x = 身長, y = 体重, color = 性別)) +
geom_point() +
geom_smooth(method = lm) +
theme_gray(base_family = "YuGo-Medium")
スクリーンショット 2019-02-26 22.23.35


これで最初の見本と同じになりました。



まとめ

今回はggplotでグラフを作る基本的な流れを説明しました。

他にも色々なところを変更することができますが徐々に説明していきます。。



第2章では実際にデータを扱い、新しい列を作ったり、条件に合う行を抽出したり、グループ化して集計したりしました。

第3章ではRでグラフを作るを目標にする予定です。

今回はグラフを作る前にそもそも知っておきたいことを紹介します。



ggplot2パッケージ

Rでグラフを作る代表的なパッケージにggplot2というものがあります。

ggplot2はtidyverseパッケージに含まれています。そのため以下のコードでggplot2パッケージも利用可能です。

library(tidyverse)
スクリーンショット 2019-02-26 13.45.36

tidyverseにはグラフ作成のggplot2だけでなく第2章で使ったdplyrパッケージ(%>%, mutate, slice, filter, group_by, summarizeなど)も入っています。

そもそもRにはパッケージを使わなくてもグラフが作れるのですが、ggplot2ではきれいで様々な種類のグラフを作ることができます。「審美的」とも言われるそうです。



Rには初期設定でも基本的なグラフが作れますが、今回はggplot2を使ったグラフで説明します。




RとExcelのグラフは作り方がぜんぜん違う

Excelで「ピボットグラフ」を使ったことなければ、ExcelとRのグラフの作り方はぜんぜん違うものになります。



Excelのグラフの作り方

①事前に作りたいグラフの種類に合わせて表を並べ替える

②表を選択して挿入→グラフ

③軸やタイトル、凡例を調整する


大切なのは事前にグラフを作るのに必要な形にすることで、コピペの嵐に見舞われることがあります。
スクリーンショット 2019-02-25 23.48.20




Rのグラフの作り方

①基本情報を先に指定する
  • x軸はこれです、y軸はこれです
  • この群で色分け(グループ分け)します。
②作りたいグラフを指定する
  • (上記で指定した情報を元に)
  • ◯◯図を作ります(散布図、棒グラフ、箱ひげ図など)
  • そのグラフの細かい指定をします(マーカーの大きさなど)
③軸、タイトル、ラベルの指定をする
  • x軸のタイトルはこれ、y軸のタイトルはこれ
  • 凡例はこれ
  • タイトルはこれ
  • フォントはこれ
④その他
  • グループごとにグラフを並べるなど
大切なのは事前にxとyなど事前情報を指定することです。
スクリーンショット 2019-02-26 7.52.58





Rはグラフを重ね合わせることができる

Rはグラフを作る前にx軸とy軸が何かを指定します。

このメリットの1つにグラフを重ねることができるがあります。

スクリーンショット 2019-02-26 13.27.39

Rでは事前にデータからx軸とy軸を指定しています。そのおかげで、そのx軸,y軸を基準とした棒グラフ+エラーバー+散布図など複数のグラフを重ねることができます。



グラフの拡大・縮小をしてもグラフの形が崩れない

Rのグラフの特徴ですが、グラフを拡大・縮小してもグラフが崩れにくいのが特徴です。

図として保存もできますし、クリップボードにコピーすれば直接Word, Excel, Power Pointへの貼り付けも簡単です。

スクリーンショット 2019-02-26 13.41.19


プログラムさえ作ってしまえば、違うデータでも同じグラフが作れる

Rの大きな特徴としてプログラムを作ってしまえば、データが変わっても同じグラフが作れます。


スクリーンショット 2019-02-26 13.50.39
スクリーンショット 2019-02-26 7.52.17

例えばdata01が今年のデータとして、来年作るdata02で同じグラフを作るとします。

ExcelであればVBAでプログラムでも作らない限り、今年と同じ作業を来年する必要があります。

しかしRであれば上図のdata01をdata02に変えるだけで同じグラフを作ることができます。

しかも列の名前を変えさえしなければ、他の列の追加・削除を行っても影響がありません。

年次報告書などもフォーマットができれば作業効率アップが目指せるかもしれません。


まとめ

今回はRでグラフを作るときのメリットと特徴を紹介しました。

これからの記事ではグラフの特徴や作成について紹介していく予定です。

第2章ではデータハンドリングの基礎について紹介してきました。

【2-1】Rのfor関数、apply関数を使ってまとめて標準偏差などの統計量を求める方法

【2-2】Rのmutate関数を使って列の追加や修正を行う



今回は上記の復習として実際にデータを前処理し、集計をかけるところまで行います。

スクリーンショット 2019-02-08 10.33.40


1.データの準備

前回同様FIMのデータを使います。

FIM.xlsx 

今回は「入院時, 1ヶ月後, 退院時」全てのタブの使います。

スクリーンショット 2019-02-19 22.25.41


ダウンロードした後、プロジェクトの指定フォルダにファイルを移動させます。

プロジェクトの使い方がわからない場合は【1-6】Rstudioのプロジェクトについて解説しますをご参照ください。


まだ複数のデータを結合する方法を紹介していません。以下のコードを実行してください。

#必要なパッケージを読み込む
library(tidyverse)
library(readxl)

#それぞれのタブのデータフレームを作る
fim_in <- read_excel("FIM.xlsx", sheet = "入院時")
fim_1 <- read_excel("FIM.xlsx", sheet = "1ヶ月")
fim_out <- read_excel("FIM.xlsx", sheet = "退院時")

#bind_rows関数で3つのデータフレームを縦につなげる
fim <- bind_rows(fim_in, fim_1, fim_out)

bind_rows関数は複数のデータフレームを縦につなげる関数です。
fimという変数に入院時、1ヶ月、退院時全てのデータを縦につなげました。

これで準備完了です。


2.今回の目標

データにはFIM(18項目 + 運動合計 + 認知合計 + 全体の合計)のデータがあります。

更に今回同じ患者に3回反復測定を行っています。


<目標>
  • FIM各項目の平均点が入院時→1ヶ月→退院時でどう変化しているのかを表にする



課題①

まずデータの確認を行います。
  1. head関数、str関数を使ってデータを確認します。

回答は下にスクロールするとあります↓















head(fim)
スクリーンショット 2019-02-25 3.26.39

str(fim)
スクリーンショット 2019-02-25 3.27.15




課題②

データをlongデータに変えます。

まず列名と列番号を取得します。

t関数(またはdata.frame関数)とnames関数を組み合わせて列名と列番号を取得します。














t(names(fim))
スクリーンショット 2019-02-25 3.27.40

または
data.frame(names(fim))
スクリーンショット 2019-02-25 3.28.03



課題③

次はlongデータに変更します

  • パイプ演算子(%>%)を使います
  • 時期はbind_rows関数を使って縦に結合したので既にlongデータになっています
  • fimの「食事」〜「FIM全体」の列をlongデータに変えます
  • 今回はkeyの列名を「項目」、valueの項目を「点数」とします
  • 「項目」のfactorの要素を五十音順にせず、列で並んだ順で表示するようにします
















fim %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE)
スクリーンショット 2019-02-25 3.55.14







課題④

次はsummarize関数を使い集計します。

  • fim_summarizeという変数名に作ります
  • 各項目が時期によってどう変化するのかが見たいのでした
  • 結果が項目→時期→点数と並ぶようにします。
  • 出た結果を見ると1箇所望まない結果になっている箇所があります。どこでしょう。














fim_summarize <- fim %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(項目,時期) %>% 
  summarize(平均 = mean(点数), 標準偏差 = sd(点数))
fim_summarize
スクリーンショット 2019-02-25 3.35.13



課題⑤
時期を見ると1ヶ月→退院時→入院時となっています。

時期のclassを確認します。















class(fim_summarize$時期)




課題④のコードに1行足して時期をfactor型に変え、入院時→1ヶ月→退院時の順に並ぶようにしてください。



















fim_summarize <- fim %>% 
  mutate(時期 = factor(時期, levels = c("入院時", "1ヶ月", "退院時"))) %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(項目,時期) %>% 
  summarize(平均 = mean(点数),
  標準偏差 = sd(点数))
fim_summarize
スクリーンショット 2019-02-25 3.29.54




課題⑥

今回の結果から「運動合計」「認知合計」「FIM合計」を取り除くにはどうすればいいでしょう。
fim_summarizeをつかって求めてください。
  • fim_summarize2 という変数名に作ります。
  • filter関数を使います
  • もし困ったら下の図を参考にしてください。
スクリーンショット 2019-02-11 2.04.40




















fim_summarize2 <- fim_summarize %>% 
  filter(!項目 %in% c("運動合計", "認知合計", "FIM合計"))
スクリーンショット 2019-02-25 3.31.41


まとめ

今回は第2章の一部の復習を行いました。

第2章では他にもifelse関数やcase_when関数を使って新たな変数名を作ったり、select関数で列を抽出しています。

今回のデータでも年代を作ったり、年代ごとにグループ分けすることも可能です。



fim %>% 
  mutate(年代 = cut(.$年齢, 
                  breaks = c(50, 60, 70, 80, 90),
                  right = FALSE, 
                  include.lowest = TRUE,
                  labels = c("50代", "60代", "70代", "80代")),
         年代 = as_factor(年代),
         時期 = factor(時期, levels = c("入院時", "1ヶ月", "退院時"))) %>% 
  gather(食事:FIM合計, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(時期, 項目, 年代) %>% 
  summarize(平均 = mean(点数), 
            標準偏差 = sd(点数),
            人数 = n())

スクリーンショット 2019-02-25 3.44.47


n関数はまだ紹介していませんでしたが、グループの数を表示することができます。
それ以外は過去の記事で紹介したものなので、まだしっくりこない方はサイトマップから過去の記事を探してみてください。



また色々な切り口があると思いますので、ぜひ色々試してみてください。


↑このページのトップヘ