タグ:filter

第3章ではggplot2を使ったグラフの作り方について説明してきました。

【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数

【3-5】Rのggplot2で密度曲線を作るgeom_density関数

【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数

【3-7】棒グラフの基本とRのggplot2で棒グラフを作るgeom_bar関数

【3-8】ggplot2で折れ線グラフを作るgeom_line関数

【3-9】ggplot2でヒートマップを作るgeom_tile関数




今回は少し実用的な場面としてテストの結果を下位項目も含めてまとめてグラフに表示するを目指したいと思います。



以前仕事で1日で130個以上のグラフをExcelでコピペの手作業で作るという苦行をしたことがあるのですが、この方法で一気に作れるようになりました。

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数でfacet_grid関数について説明しましたが、今回はfacet_wrap関数を紹介します。


また下位項目をまとめてグラフで表示するためにはデータハンドリングも必要になります。
データハンドリングについては2章で説明していますのでそちらもご参照ください。




1.使用するデータ

今回は【2-7】Excelの複数シートをRで一気に読み込むで取り込んだデータを使用します。
ただすぐに始められるように以下のコードを用意しました。
氏名、年齢、病院で使用するFIMという架空のデータです。
FIM18項目ありそれぞれ1〜7点で採点します。

またFIMには運動項目と認知項目というサブグループがあります。

食事〜階段までの13項目を運動項目(FIM_運動合計:13〜91点)
理解〜記憶までの5項目を認知項目(FIM_認知合計:5〜35点)
すべての合計をFIM_合計(18〜126点)

またFIMを3回計測し、sheetという列には1回目,2回目,3回目が入っています。

url <- "https://github.com/mitti1210/myblog/blob/master/fim.csv?raw=true" 
dat <- read.csv(url)
head(dat)

このデータからFIMの合計点と下位項目が1〜3回目でどのように変化したのかをグラフにしてみたいと思います。なお今回は棒グラフで平均を出します。


2.データハンドリング

【3-9】ggplot2でヒートマップを作るgeom_tile関数ではFIM_食事の項目だけを使いましたが、今回は全ての下位項目を使用します。

グラフ作成にあたり、以下をイメージしてデータハンドリングします。
・グラフを作る際、FIM_○○の"FIM_"はいらないので消したい
・sheetごと、各項目ごとの平均を出したい。そのためにはwideデータになっているdatをlongデータにする必要がある
・グラフに数値を表示するときに小数点が続くと見栄えが悪いので、小数点第1位まで表示したい

今回もtidyverseパッケージを使用します。

まだtidyverseパッケージを一度も使ったことがなければインストールします。
install.packages("tidyverse")
既にインストールしていればlibrary関数で呼び出します。
library(tidyverse) 

以下1例と解説です。

names(dat) <- str_remove(names(dat), "FIM_")

dat_stat <-
  dat %>% 
    gather(key = 項目, value = 点数, 食事:合計, factor_key = TRUE) %>% 
    group_by(項目, sheet) %>% 
    summarize(平均 = mean(点数), 標準偏差 = sd(点数)) %>% 
    mutate(平均 = round(平均, 1)) 



data.frameの名前を変更する方法

names関数を使うとdata.frameの列名をベクトルとして出してくれます。

names(dat)


そして直接変更するにはrename関数などありますが、同じ長さのベクトルを準備すると一括して入れ替えることができます。

names(dat) <- 同じ長さのベクトル


指定した文字列を消すstr_remove関数

str_remove関数は指定した文字を消す事ができます。

str_remove(ベクトル, "消したい文字列")

names(dat) <- str_remove(names(dat), "FIM_")


wideデータからlongデータに変える


wide, longデータについてはこちらの記事で紹介しています。




  dat %>% 
    gather(key = 項目, value = 点数, 食事:合計, factor_key = TRUE) %>% 
項目が五十音順にならないようにfactor_key = TRUEを指定します。



group_by関数とsummarize関数で集計する


項目とsheet毎に集計を行うにはgroup_by関数summarize関数を使います。



  dat %>% 
    gather(key = 項目, value = 点数, 食事:合計, factor_key = TRUE) %>% 
    group_by(項目, sheet) %>% 
    summarize(平均 = mean(点数), 標準偏差 = sd(点数)) 


四捨五入する

mutate関数round関数を使って平均の値を四捨五入します。




dat %>% 
    gather(key = 項目, value = 点数, 食事:合計, factor_key = TRUE) %>% 
    group_by(項目, sheet) %>% 
    summarize(平均 = mean(点数), 標準偏差 = sd(点数)) %>% 
    mutate(平均 = round(平均, 1)) 


まとめると最初のコードになります。

names(dat) <- str_remove(names(dat), "FIM_")

dat_stat <-
  dat %>% 
    gather(key = 項目, value = 点数, 食事:合計, factor_key = TRUE) %>% 
    group_by(項目, sheet) %>% 
    summarize(平均 = mean(点数), 標準偏差 = sd(点数)) %>% 
    mutate(平均 = round(平均, 1)) 


3.棒グラフを作成する

棒グラフを作るにはgeom_bar関数を使います。
棒グラフに数値を乗せる方法も紹介しています。





macの日本語文字化け対策にヒラギノ角ゴ Pro W3 ("HiraKakuPro-W3"を使っています。
windowの場合はエラーが出るかもしれませんのでtheme_gray(base_family = "HiraKakuPro-W3") +をの色をつけた箇所を消してください。



facet_wrapでグループ毎のグラフをまとめて作る

そしてグループ毎にグラフを作るにはfacet_wrap関数を使います。

facet_wrap( ~ グループ)

ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_bar(data = dat_stat, aes(x = sheet, y = 平均, fill = sheet), stat = "identity") +
  facet_wrap( ~ 項目)

スクリーンショット 2019-08-24 1.07.00


これで項目ごとのグラフができました。しかし気になる点があります。

facet_wrapはそのままだと軸が固定されています。
合計と各項目に点数差がありすぎて、各項目の点数の差がわかりません。


facet_wrapの軸をグループ毎に変更する

軸をグループ毎に帰るにはscales = "free"を追加します。

ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_bar(data = dat_stat, aes(x = sheet, y = 平均, fill = sheet), stat = "identity") +
  facet_wrap( ~ 項目, scales = "free")

スクリーンショット 2019-08-24 1.07.14


ただこれも1つ問題があります。
グラフ自体は変化しているように見えるのですが、それぞれの軸が違うのでグループ毎の比較ができません。


4.3種類のグラフに分けて保存する

全てのグラフをまとめてしまうとわかりにくいのでy軸のサイズを考慮して次の3種類に分けてグラフを作成してみます。

・合計
・運動項目合計, 認知項目合計
・下位項目

そのためにはdat_statからそれぞれを抽出してグラフを作成する必要があります。

・filter関数を使い抽出し、そのまま %>% でグラフ作成まで行ってみます。
・datから %>% でつないでggplot() + 〜と直接つなげるとdata = datを省略できます。
このようにするとdat_statのデータだけで完結します(dat_stat_合計みたいな変数を作らなくて済む)
下のコードの中にはdata = datが入っていないことを確認してみてください

・x軸の「sheet」とy軸の「平均」はいらないのでlabs関数で消します

・棒グラフはx軸の名前と凡例が同じなので凡例を消します
凡例を消すにはguides(fill = "none")を追加します

・facet_wrapでは軸を固定するためscales = "free"は追加しません

そしてfilter()の列以外は全部同じなことにも注目してください。
filter関数については【2-4】で紹介しています。



p_1:合計だけのグラフ
p_1 <-
dat_stat %>% 
  filter(項目 == "合計") %>% 
  ggplot(aes(x = sheet, y = 平均)) +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_bar(aes(fill = sheet), stat = "identity") +
  geom_text(aes(label = 平均), position = position_stack(vjust = 0.5)) +
  facet_wrap( ~ 項目) +
  labs(x = "", y = "") +
  guides(fill = "none")
スクリーンショット 2019-08-24 1.07.31


p_2:運動項目合計と認知項目合計のグラフ
p_2 <-
dat_stat %>% 
  filter(項目 %in% c("運動合計", "認知合計")) %>% 
  ggplot(aes(x = sheet, y = 平均)) +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_bar(aes(fill = sheet), stat = "identity") +
  geom_text(aes(label = 平均), position = position_stack(vjust = 0.5)) +
  facet_wrap( ~ 項目) +
  labs(x = "", y = "") +
  guides(fill = "none")
スクリーンショット 2019-08-24 1.07.41


p_3:下位項目のグラフ
p_3 <-
dat_stat %>% 
  filter(!項目 %in% c("運動合計", "認知合計", "合計")) %>% 
  ggplot(aes(x = sheet, y = 平均)) +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_bar(aes(fill = sheet), stat = "identity") +
  geom_text(aes(label = 平均), position = position_stack(vjust = 0.5)) +
  facet_wrap( ~ 項目) +
  labs(x = "", y = "") +
  guides(fill = "none")
スクリーンショット 2019-08-24 1.07.55



5.まとめ

今回はfacet_wrapでグループ毎のグラフを作る方法を紹介しました。
facet_wrapはグループの違いをみるのに非常に便利です。
ただ合計と下位項目が入っているデータだと軸の問題が出ますので注意が必要です。

今回作った3種類のグラフを組み合わせるためのgridExtraパッケージがあり次回紹介します。










第2章ではデータハンドリングの基礎について紹介してきました。

【2-1】Rのfor関数、apply関数を使ってまとめて標準偏差などの統計量を求める方法

【2-2】Rのmutate関数を使って列の追加や修正を行う



今回は上記の復習として実際にデータを前処理し、集計をかけるところまで行います。

スクリーンショット 2019-02-08 10.33.40


1.データの準備

前回同様FIMのデータを使います。

FIM.xlsx 

今回は「入院時, 1ヶ月後, 退院時」全てのタブの使います。

スクリーンショット 2019-02-19 22.25.41


ダウンロードした後、プロジェクトの指定フォルダにファイルを移動させます。

プロジェクトの使い方がわからない場合は【1-6】Rstudioのプロジェクトについて解説しますをご参照ください。


まだ複数のデータを結合する方法を紹介していません。以下のコードを実行してください。

#必要なパッケージを読み込む
library(tidyverse)
library(readxl)

#それぞれのタブのデータフレームを作る
fim_in <- read_excel("FIM.xlsx", sheet = "入院時")
fim_1 <- read_excel("FIM.xlsx", sheet = "1ヶ月")
fim_out <- read_excel("FIM.xlsx", sheet = "退院時")

#bind_rows関数で3つのデータフレームを縦につなげる
fim <- bind_rows(fim_in, fim_1, fim_out)

bind_rows関数は複数のデータフレームを縦につなげる関数です。
fimという変数に入院時、1ヶ月、退院時全てのデータを縦につなげました。

これで準備完了です。


2.今回の目標

データにはFIM(18項目 + 運動合計 + 認知合計 + 全体の合計)のデータがあります。

更に今回同じ患者に3回反復測定を行っています。


<目標>
  • FIM各項目の平均点が入院時→1ヶ月→退院時でどう変化しているのかを表にする



課題①

まずデータの確認を行います。
  1. head関数、str関数を使ってデータを確認します。

回答は下にスクロールするとあります↓















head(fim)
スクリーンショット 2019-02-25 3.26.39

str(fim)
スクリーンショット 2019-02-25 3.27.15




課題②

データをlongデータに変えます。

まず列名と列番号を取得します。

t関数(またはdata.frame関数)とnames関数を組み合わせて列名と列番号を取得します。














t(names(fim))
スクリーンショット 2019-02-25 3.27.40

または
data.frame(names(fim))
スクリーンショット 2019-02-25 3.28.03



課題③

次はlongデータに変更します

  • パイプ演算子(%>%)を使います
  • 時期はbind_rows関数を使って縦に結合したので既にlongデータになっています
  • fimの「食事」〜「FIM全体」の列をlongデータに変えます
  • 今回はkeyの列名を「項目」、valueの項目を「点数」とします
  • 「項目」のfactorの要素を五十音順にせず、列で並んだ順で表示するようにします
















fim %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE)
スクリーンショット 2019-02-25 3.55.14







課題④

次はsummarize関数を使い集計します。

  • fim_summarizeという変数名に作ります
  • 各項目が時期によってどう変化するのかが見たいのでした
  • 結果が項目→時期→点数と並ぶようにします。
  • 出た結果を見ると1箇所望まない結果になっている箇所があります。どこでしょう。














fim_summarize <- fim %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(項目,時期) %>% 
  summarize(平均 = mean(点数), 標準偏差 = sd(点数))
fim_summarize
スクリーンショット 2019-02-25 3.35.13



課題⑤
時期を見ると1ヶ月→退院時→入院時となっています。

時期のclassを確認します。















class(fim_summarize$時期)




課題④のコードに1行足して時期をfactor型に変え、入院時→1ヶ月→退院時の順に並ぶようにしてください。



















fim_summarize <- fim %>% 
  mutate(時期 = factor(時期, levels = c("入院時", "1ヶ月", "退院時"))) %>% 
  gather(5:25, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(項目,時期) %>% 
  summarize(平均 = mean(点数),
  標準偏差 = sd(点数))
fim_summarize
スクリーンショット 2019-02-25 3.29.54




課題⑥

今回の結果から「運動合計」「認知合計」「FIM合計」を取り除くにはどうすればいいでしょう。
fim_summarizeをつかって求めてください。
  • fim_summarize2 という変数名に作ります。
  • filter関数を使います
  • もし困ったら下の図を参考にしてください。
スクリーンショット 2019-02-11 2.04.40




















fim_summarize2 <- fim_summarize %>% 
  filter(!項目 %in% c("運動合計", "認知合計", "FIM合計"))
スクリーンショット 2019-02-25 3.31.41


まとめ

今回は第2章の一部の復習を行いました。

第2章では他にもifelse関数やcase_when関数を使って新たな変数名を作ったり、select関数で列を抽出しています。

今回のデータでも年代を作ったり、年代ごとにグループ分けすることも可能です。



fim %>% 
  mutate(年代 = cut(.$年齢, 
                  breaks = c(50, 60, 70, 80, 90),
                  right = FALSE, 
                  include.lowest = TRUE,
                  labels = c("50代", "60代", "70代", "80代")),
         年代 = as_factor(年代),
         時期 = factor(時期, levels = c("入院時", "1ヶ月", "退院時"))) %>% 
  gather(食事:FIM合計, key = 項目, value = 点数, factor_key = TRUE) %>% 
  group_by(時期, 項目, 年代) %>% 
  summarize(平均 = mean(点数), 
            標準偏差 = sd(点数),
            人数 = n())

スクリーンショット 2019-02-25 3.44.47


n関数はまだ紹介していませんでしたが、グループの数を表示することができます。
それ以外は過去の記事で紹介したものなので、まだしっくりこない方はサイトマップから過去の記事を探してみてください。



また色々な切り口があると思いますので、ぜひ色々試してみてください。


Rで集計やグラフ作成を行う場面は多くあります。

その際、元の表から分析に使いたい列や行だけを抽出したり、「男性だけを取り出す」みたいに様々な条件にあった行だけを抽出することが必要になります

今回はRで指定した列や行だけを取り出すselect関数、slice関数、filter関数を紹介します。
これらはtidyverseパッケージ内にあるdplyrパッケージの機能です。



今回使う架空のデータは前回と同じものを使用します。

年齢、性別、病名が入っています。
下のコードをまとめてスクリプトにコピペして実行してください。
library(tidyverse)
set.seed(1) 年齢 <- floor(rnorm(100,60,20)) 性別 <- sample(c("男性","女性"),100,replace = TRUE) 病名 <- sample(c("脳梗塞", "脳出血", "骨折", "靭帯損傷","心筋梗塞"), 100, replace = TRUE) data <- data.frame(年齢,性別,病名) head(data)

スクリーンショット 2019-02-10 22.48.49



1.指定した列を抽出するselect関数

select(データの変数名, 選択する列)

スクリーンショット 2019-02-13 20.15.20


select関数では縦の列を抽出します。

列名または列番号で選択します(" "をつけなくてOK)。

もしくは使わない列を選ぶこともできます。

そのため以下の3つのコードは全て同じ結果になります。
data_A <- data %>% 
  select(1,2)
head(data_A)

data_A <- data %>% 
  select(年齢,性別)
head(data_A)

data_A <- data %>% 
  select(1,性別)
head(data_A)

data_A <- data %>% select(-3) head(data_A)

列名で指定する場合は""で囲む必要はないですが、大文字や小文字など間違えないことが大切です。

また列番号の場合「何列目かなんてわからない…」ということもよくあります。

列名と列番号の一覧を知りたい時はt関数とnames関数を使うと便利です
t(names(data))
スクリーンショット 2019-02-13 20.28.22



応用編

応用①
もし列名が連番ならを使います。1番目〜5番目なら1:5と書きます。
select(1:5)

応用②
もっと選びたい列があって1番目と5番目〜10番目と13番目を使いたい場合は以下になります。
select(1, 5:10, 13)

応用③

インデックスという考え方で、選ぶ列番号を入れた変数を予め作成する方法があります。

data %>%
index <- c(1, 5:10, 13)
select(index)
スクリーンショット 2019-02-13 23.31.02


先にindexという変数名を作り、そこに指定する列を選びます。

Rを紹介する本やサイトではindexindという変数名で見かけることがありますが、もちろん好きな変数名で構いません。

indexの便利なところはindexを変えるだけで、本体のコードは1つも変わらないところにあります。

スクリーンショット 2019-02-13 21.08.16

このような考え方は色々な場面で使われます。

特に繰り返しの作業で効果を発揮します。



2.指定した行を抽出するslice関数

slice(データの変数名選択する列)

slice関数はselect関数の行バージョンです。

ただ条件で絞るのはslice関数でなく次に紹介するfilter関数になります。

silce関数は10万桁あって処理に時間かかるから、いきなり全部使わず1000行だけ切り取って、プログラムが動くかどうかテストしてみようみたいな場合に使えます。

他にも下のようなExcelをファイルを読み込むことになってしまい、1行目いらない!下の平均の行いらない!など切り取る列が決まってるときに使います。

スクリーンショット 2019-02-13 21.47.00

slice(2:7)はslice(-1,-8)でもOKです。



3.指定した条件を抽出するfilter関数

filter(データの変数名条件1,条件2)

filter関数は条件にあった行を抽出します。

data_B <- data %>% 
  filter(病名 %in% c("骨折", "靭帯損傷"))
head(data_B)
スクリーンショット 2019-02-13 21.45.33


前回の記事でも出ましたが、条件を付ける場合は演算子を使います。

スクリーンショット 2019-02-11 2.04.40
使い方に自身がない場合はRで数値を複数のカテゴリーに分類するifelse関数、case_when関数、cut関数を紹介しますをご参照ください。


複数の条件で絞る場合

filter関数で複数条件の場合は3つ方法があります。

, でつなぐ

filter関数はfilter(データの変数名条件1,条件2)という形式なので、カンマを使ってつなげることができます。

data_B <- data %>% 
  filter(病名 %in% c("骨折", "靭帯損傷") ,
         性別 == "女性" ,
         年齢 < 60)

%>%でつなぎ、filter関数を重ねる

filter関数は複数あって悪いことはないので、素直に%>%でつなげる方法ことも可能です。
メリットとしてはとりあえずわかりやすいのと、考えた順にコードを追加できるところでしょうか。

下のコードで①と同じ結果になります。
スクリーンショット 2019-02-13 21.56.55


&| で条件を付け加える

& や | でつなぐこともできます。演算子の前後に , は入れません。
今までの方法は全て「かつ」という意味でつないでいたので、「または」の意味でつなぎたい時は | でつなぎましょう。

これも①②と同じ結果になります。
スクリーンショット 2019-02-13 23.10.11



まとめ

今回はselect関数、slice関数、filter関数を紹介しました。

これらの関数は集計やグラフを作成するときによく使います。

今後も出てくる予定なのでわからなくなったら復習に使ってください。




↑このページのトップヘ