タグ:RStudio

第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回はFriedman(フリードマン)検定を紹介します



まずFriedman(フリードマン)検定についてはハルさんのサイトをご参照ください。



また1.準備〜4.データの読み込みまでは【4-1】Rでt検定を行う方法と全く同じ流れになります。
もし1〜4まででわからない部分があれば確認してみてください。

 

1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。

 

ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。
スクリーンショット 2019-10-20 7.54.14


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。

スクリーンショット 2019-12-08 20.26.22

3.データのダウンロード


今回もハルさんのサイトのデータを使わせていただきます。

デモデータ(Friedman検定)

この章ではRを使ってダウンロードしています。


download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)
urlはデモデータで右クリック → リンクのアドレスをコピー
destfileは保存場所と保存のファイル名を指定します。


実際のコードは以下になります。
前回のコードのURL(" "の中)とdestfileのdata/以降を変更するだけでOKです。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-friedman-rank-sum-test.xlsx"
destfile = "data/demo-friedman-rank-sum-test.xlsx"
download.file(url, destfile)
スクリーンショット 2019-11-23 22.14.17


dataフォルダにダウンロードできたことを確認します。


4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。

スクリーンショット 2019-12-08 20.31.39


データが入っているセルを確認します。
B2からC22までデータが入っています(B2:D32と表記)
スクリーンショット 2019-12-08 20.31.58



次にImport Datasetでデータを取り込みます。
スクリーンショット 2019-12-08 20.31.39



Import画面ではName, Sheet,Rangeを指定します。

Name:ハルさんのサイトではgripでしたがgrip_friedmanとします(大文字・小文字は別物とされます)
Sheet:このExcelは1つしかデータがないのでDefaultのままでOK
Range:先ほど確認したB2:D32(実は今回のように表以外に余計なものがなければ空欄でもOK)

スクリーンショット 2019-12-08 20.35.24


Importボタンを押す前に右にあるコードをコピーしスクリプトファイルに貼り付けることも忘れずに行います。
library(readxl)
grip_friedman <- read_excel("data/demo-friedman-rank-sum-test.xlsx")
View(grip_friedman)

データが正しく入っていることを確認します。
スクリーンショット 2019-12-08 20.36.11


これでデータの取り込みは完成です。
Friedman検定は繰り返しのデータ(被験者内要因)なのでデータを横につなげています。


5.Friedman検定を行う(wideデータの場合)

ハルさんのサイトでは早速Friedman検定を行っていますのでこちらも早速行います。
今回はwideデータなのでまずwideデータの場合を紹介します。

Friedman検定はfriedman.test関数を使います。

friedman.test(cbind(繰り返しデータのある列))
スクリーンショット 2019-12-09 0.52.59

friedman.test(cbind(grip_friedman$W0,grip_friedman$W1,grip_friedman$W2))
スクリーンショット 2019-12-09 0.54.04

EZRと同じ結果が出ました。

6.Friedman検定を行う(longデータの場合)
次にlongデータでFriedman検定を行う方法も紹介します。

friedman.test(データ ~ グループ | 個人を識別するid, data = ○○)

スクリーンショット 2019-12-09 0.58.27

Friedman検定は対応のあるデータになります。

今回は30人がW0,W1,W2の3回データを取っているので3*30=90データあります。
そのため作るlongデータは上記のイメージになります。

今回はid, time, gripとしてますが自分がわかれば好きな名前を付けてOKです。
id:30人の内誰のデータかわかるためのid(氏名でも可)
time:W0, W1, W2の3つ
grip:今回測定した握力のデータ
wideデータをlongデータに変えるにはgather関数、もしくはpivot_longer関数を使います。
gather関数に関しては【2-5】Rでデータを集計するのに便利なlongデータとgather関数で紹介しています。



データの扱いはtidyverseパッケージに含まれていますので。まずlibrary関数でtidyverseパッケージを読み込みます。今回はgrip_friedman_longという名前にします。

library(tidyverse)

#gather関数の場合 grip_friedman_long <- grip_friedman %>% rowid_to_column("id") %>% gather(key = time, value = grip, W0:W2, factor_key = TRUE)

#pivot_longer関数の場合 grip_friedman_long <- grip_friedman %>% rowid_to_column("id") %>% pivot_longer(cols = c(W0,W1,W2), names_to = "time", values_to = "grip", names_ptypes = list(time = factor()))

ポイントはもともとのExcelデータにidにあたる列がないことです。
そこでrowid_to_column関数を使います。""の中身が列名になります。
スクリーンショット 2019-12-09 1.14.03

これで準備が整いました。

longデータでFriedan検定を行う場合は改めてこうなります。

friedman.test(データ ~ グループ | 個人を識別するid, data = ○○)
friedman.test(grip ~ time | id, data = grip_friedman_long)
スクリーンショット 2019-12-09 0.54.04
もちろん結果は同じです。

7.多重比較を行う
Friedman検定で多重比較を行いたいのですがwideデータだとEZR専用のパッケージでしかできません。
そのためRで行うにはlongデータで行う必要があります。

longデータで多重比較を行うにはpairwise.wilcox.test関数を使います。簡単に言うと全ての組み合わせでMann-Whitney U検定を行いその結果を元にp値の調整を行います
どの方法を使うかはp.adjust.method = で指定します。
またタイのエラーを回避するためにexact = FALSEを入れています。
data = 

pairwise.wilcox.test(目的変数factor(グループ),  p.adjust.method = "◯◯", paired = TRUE, exact = FALSE)

#Bonferroniの方法
pairwise.wilcox.test(grip_friedman_long$grip, grip_friedman_long$time, p.adjust.method = "bonferroni", paired = TRUE, exact = FALSE)
#Holmの方法
pairwise.wilcox.test(grip_friedman_long$grip, grip_friedman_long$time, p.adjust.method = "holm", paired = TRUE, exact = FALSE)
スクリーンショット 2019-12-09 1.39.44
EZRとほぼ同じ結果になりました。

8.どうしてもwideデータのままなら手計算が必要

wideデータのまま多重比較を行う方法がEZRのパッケージしかありません。

そのためどうしてもwideデータのまま行うにはwilcox.test関数、もしくはcoinパッケージwilcox_test関数を使い、1つずつ組み合わせを行い、BonferroniHolmHochbergそれぞれの方法で自分でp値を直接計算することになります。

この方法は統計ERさんの記事に詳しく紹介されています。
更にBonferroniHolmHochbergって何をしてるの?という疑問も解決するかもしれません。
仕組みがわかればp値に2とか3とかかけるだけなので意外と単純です。
 


8.まとめ

今回はFriedman検定を紹介しました。

もしRで行う場合はwideデータで分析するかlongで分析するかをあらかじめイメージしていた方がその後の解析もスムーズかもしれません。

次は相関係数について紹介します!

9.今回使ったコード
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-friedman-rank-sum-test.xlsx"
destfile = "data/demo-friedman-rank-sum-test.xlsx"

download.file(url, destfile)

library(readxl)
grip_friedman <- read_excel("data/demo-friedman-rank-sum-test.xlsx")
View(grip_friedman)

friedman.test(cbind(grip_friedman$W0,grip_friedman$W1,grip_friedman$W2))

#pivot_longer関数の場合
grip_friedman_long <-
  grip_friedman %>% 
  rowid_to_column("id") %>% 
  pivot_longer(cols = c(W0,W1,W2), names_to = "time", values_to = "grip", names_ptypes = list(time = factor())) 

#gather関数の場合
grip_friedman_long <-
  grip_friedman %>% 
  rowid_to_column("id") %>% 
  gather(key = time, value = grip, W0:W2, factor_key = TRUE)

friedman.test(grip ~ time | id, data = grip_friedman_long)

pairwise.wilcox.test(grip_friedman_long$grip, grip_friedman_long$time, p.adjust.method = "bonferroni", paired = TRUE, exact = FALSE)
pairwise.wilcox.test(grip_friedman_long$grip, grip_friedman_long$time, p.adjust.method = "holm", paired = TRUE, exact = FALSE)
 

記事一覧はこちらになります。


第4章では統計を扱っています。
その中で何度か分散分析のを紹介してます。

【4-10】Rで分散分析(一元配置分散分析)を行う方法
【4-12】Rで1要因反復測定分散分析(repeated-measures-ANOVA)を行う方法①
【4-12】Rで1要因反復測定分散分析(repeated-measures-ANOVA)を行う方法②

Rで分散分析を行う関数はいくつかあり、今までaov関数、lm関数→anova関数、Anova関数など紹介してきました。
ただRにはANOVA君という分散分析に特化したスクリプトがあります。

ANOVA君を使えばどんな形式の分散分析でも行え、多重比較も一気にできます。

今回はANOVA君を紹介します。



1.データの準備

今回は前回のデータを使います。記事の1~4までをご準備ください。


もし前回の記事を見るなんて面倒くさい!という方は以下のコードを実行してください。
(このコードはデータの保存場所が今までのの記事と違います)

#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-repeated-measures-anova.xlsx"
destfile <- "demo-repeated-measures-anova.xlsx" #今まで第4章の記事を読まれて実践されてる方は destfile <- "data/demo-repeated-measures-anova.xlsx"
download.file(url, destfile) #データの読み込み library(readxl) grip_rep_anova <- read_excel("data/demo-repeated-measures-anova.xlsx", range = "B2:E32") View(grip_rep_anova)

スクリーンショット 2019-11-25 22.48.23
前回は
ある運動プログラムを行い、0週目・1週目・2週目で握力を測定した、ということを想定した仮想データとなっています。更に男女の群分けも行います。

2.被験者間要因と被験者内要因と分散分析のデザインについて
分散分析を行う上で大切なのが被験者間要因と被験者内要因についてです。

スクリーンショット 2019-11-24 6.33.40
被験者間要因はいわゆる対応のないデータのことで被験者全体をA法、B法の2つに割り振るといった方法です。なので同じ人がA法とB法を行うことはありません。
被験者内要因はいわゆる対応のあるデータのことで同じ人が繰り返し測定します

そして被験者間要因は列の左側に、被験者内要因は列の右側に並べると後々分析しやすくなります。
また被験者間要因は縦に、被験者内要因は横につなげると分析を行うには都合がいいです。

仮に下のデータがあったとします。
スクリーンショット 2019-11-24 6.35.12
この並びが分散分析を行う上での基本的な形になります。

要因が3つ(sex, treatment, 繰り返し)あるのでABC
被験者間要因と被験者内要因の間にsを付ける

上記の場合はABsCデザインと言います。
また被験者間要因と被験者内要因が両方あるデザインを混合計画とも呼んだりします。

ANOVA君を使うためにはこのデザインの名付け方とデータの並べ方が鍵になります。

3.ANOVA君の導入

ANOVA君は通常のインストールでは行なえません。

ANOVA君の作者である井関龍太さんのホームページでダウンロードする必要があります。



上記記事でtxtファイルを保存します。
保存場所は作業フォルダに入れておくとすぐに使えますが、どこでも大丈夫です。
作業フォルダはgetwd関数を使えばわかります。()内は何も入れません。

getwd()


RstudioでCode→Source Fileでダウンロードしたファイルを指定すればOKです。
スクリーンショット 2019-11-28 7.54.56


4.ANOVA君を使うためのデータの準備

ANOVA君を使うには次の情報が大切です。
①何デザインか?
②デザインに併せたデータの並び順にする

①何デザインか?

今回は以下の列があります。

被験者間要因:sex(A
被験者内要因:W0,W1,W2の繰り返し(B


【4-12】Rで1要因反復測定分散分析(repeated-measures-ANOVA)を行う方法①ではBのみで分散分析を行いました。この場合は被験者間要因がありませんのでsAデザインとなります。

【4-12】Rで1要因反復測定分散分析(repeated-measures-ANOVA)を行う方法②では被験者間要因がA被験者内要因がBなのでAsBデザインとなります。

分散分析には一元配置とか二元配置とか反復測定とか混合モデルとかいろいろあるのですが、なれない方はまず上記のデザインが付けられることを優先してもいいと思います。その後書籍で二元配置とか出てきた時にそのデータをみながら「あぁ、これは○○デザインのことだな」と理解できればいいと思います。

②デザインに併せたデータの並び順にする
そしてANOVA君はデザインの順にデータを並べることが必須です。

これはtidyverseパッケージのselect関数を使えばできます。
スクリーンショット 2019-11-25 22.48.23

今はW0,W1,W2,sexの順に並んでいます。

もしsAデザインならsexを消し、W0,W1,W2のみの列にします。
select関数は【2-4】Rで指定した列や行だけを取り出すselect関数、slice関数、filter関数を紹介しますで紹介しています。

今回はgrip_anovakun_1_wideという変数名を付けました。なんでも大丈夫です。
まずtidyverseパッケージを読み込んでから行います。

library(tidyverse)

grip_anovakun_1_wide <- grip_rep_anova %>% select(W0, W1, W2)

スクリーンショット 2019-12-02 23.30.22

もしAsBデザインならsex,W0,W1,W2の並び順にする必要があります。

grip_anovakun_2_wide <-
  grip_rep_anova %>% 
  select(sex, W0, W1, W2)

スクリーンショット 2019-12-02 23.32.04

これでデータができました。

5.ANOVA君を使う

ANOVA君で分散分析を行うにはanovakun関数を使います。

anovakun(データ, "デザイン", 各要素のグループの数)

ポイントはAやBの要素の数を入れることです。
スクリーンショット 2019-12-02 23.49.02
anovakun(grip_anovakun_1_wide, "sA", 3)
anovakun(grip_anovakun_2_wide, "AsB", 2, 3) anovakun(grip_anovakun_2_wide, "AsB", sex = c("F", "M"), time = c("W0", "W1", "W2"))

6.結果の見方
今回の結果をそれぞれ表示します。

①sAデザインの場合
anovakun(grip_anovakun_1_wide, "sA", 3)

スクリーンショット 2019-12-02 23.56.16

sAデザインと書いています。
AがW0,W1,W2だったので、a1,a2,a3と表記されます。
まず、それぞれの平均と標準偏差が書いてあります。

スクリーンショット 2019-12-03 0.03.43
つぎに反復測定分散分析に必要な球面性の検定を行っています。
球面性の検定に関しては【4-12】Rで1要因反復測定分散分析(repeated-measures-ANOVA)を行う方法①をご参照ください。

スクリーンショット 2019-12-03 0.03.48
そして分散分析表です。
sAデザインは要素が1つしかないので交互作用はありません。

スクリーンショット 2019-12-03 0.03.54
有意差があれば多重比較を行います。
多重比較をは何も指定しないとShafferの方法になります。
もしHolmの方法を行いたい!という場合は holm = TRUEを付け加えます。
anovakun(grip_anovakun_1_wide, "sA", 3, holm = TRUE)

②AsBデザインの場合
anovakun(grip_anovakun_2_wide, "AsB", sex = c("F", "M"), time = c("W0", "W1", "W2"))
スクリーンショット 2019-12-03 0.31.54
最初に各群の平均・標準偏差が書かれています。
スクリーンショット 2019-12-03 0.32.01
反復測定分散分析にひつような球面仮定性についてみています。


スクリーンショット 2019-12-03 0.33.01
次に分散分析表がでています。
今回みたいのはsex x timeの部分です。
timeで有意差がでているので時間経過の影響はあるようですが、その傾向は男女で違うようです。

スクリーンショット 2019-12-03 0.33.08
timeで有意差が出ていたので男女合わせたtimeで多重比較の結果が出ています。

スクリーンショット 2019-12-03 0.33.19
次はsex x timeの交互作用についてです。
今回みたいのは下のtime at Ftime at Mです。
女性・男性それぞれ時系列に差があるようです。

sex at W0 ~ W2はW0においてFとMに差があるか?という意味ですが今回知りたいことではありません。

スクリーンショット 2019-12-03 0.33.29
男女ともに時系列で有意差が見られたのでそれぞれの多重比較の結果が出ています。

どちらもW0 < W1 < W2で大きいようです。


7.まとめ

今回はANOVA君について紹介しました。

Rで分散分析を行うならANOVA君はあまりにも有名なので是非試してみてください!




第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


まずはハルさんのサイトをご覧ください。
ここで行っている解析をRで実施する方法を紹介します。


1.データの準備

今回は前回のデータを使います。記事の1~4までをご準備ください。


もし前回の記事を見るなんて面倒くさい!という方は以下のコードを実行してください。
(このコードはデータの保存場所が今までのの記事と違います)

#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-repeated-measures-anova.xlsx"
destfile <- "demo-repeated-measures-anova.xlsx" #今まで第4章の記事を読まれて実践されてる方は destfile <- "data/demo-repeated-measures-anova.xlsx"
download.file(url, destfile) #データの読み込み library(readxl) grip_rep_anova <- read_excel("data/demo-repeated-measures-anova.xlsx", range = "B2:E32") View(grip_rep_anova)

スクリーンショット 2019-11-25 22.48.23
前回は
ある運動プログラムを行い、0週目・1週目・2週目で握力を測定した、ということを想定した仮想データとなっています。今回は握力の経時的検討に加えて男女の群分けも行います。

2.被験者間要因と被験者内要因と分散分析のデザインについて
分散分析を行う上で大切なのがvについてです。
スクリーンショット 2019-11-24 6.33.40
被験者間要因はいわゆる対応のないデータのことで被験者全体をA法、B法の2つに割り振るといった方法です。なので同じ人がA法とB法を行うことはありません。
被験者内要因はいわゆる対応のあるデータのことで同じ人が繰り返し測定します

そして被験者間要因は列の左側に、被験者内要因は列の右側に並べると後々分析しやすくなります。
また被験者間要因は縦に、被験者内要因は横につなげるとEZRで分析を行うには都合がいいです。

仮に下のデータがあったとします。
スクリーンショット 2019-11-24 6.35.12
この並びが分散分析を行う上での基本的な形になります。

要因が3つ(sex, treatment, 繰り返し)あるのでABC
被験者間要因と被験者内要因の間にsを付ける

上記の場合はABsCデザインと言います。
また被験者間要因と被験者内要因が両方あるデザインを混合計画とも呼んだりします。


今回は以下のようになります。

被験者間要因:sex(A
被験者内要因:W0,W1,W2の繰り返し(B


今回のExcelではsexの列が1番右にありますが被験者間要因を左、被験者内要因を右に書くのが習わしのようなのでAsBデザインということになります。

被験者内要因(改善の傾向)に性別が影響しているかどうかを見たいということになります。

3.反復測定分散分析(repeated measures ANOVA)を行う

前回の記事で正規分布の確認を行いましたので、早速反復測定分散分析を行います。

反復測定分散分析を行うには主に2つの方法があります。

1.carパッケージのAnova関数を使う(EZRもcarパッケージを使ってる)
2.ANOVA君を使う

ANOVA君は井関龍太さんが作成した分散分析に特化したスクリプトです。
使い方に特徴がありますが使えるようになると慣れると簡単でどの方法よりも詳細に分析できます。

ここではまず1の方法を紹介します。

反復測定分散分析を行うには次の方法になります。




①carパッケージを読み込む
ここは前回の記事と全く同じです。
まずはcarパッケージを読み込みます。
carパッケージはEZRをインストールする時に一緒にインストールされています。
もしインストールしていなければ先にインストールします。

install.packages("car")


その後library関数で呼び出します。

library(car)


②被験者要因を指定するdata.frameを準備する
ここは前回の内容と全く同じです。
今回のデータではsexの列は「MとFの2つのデータがある」とパソコンは読み取れますがW0,W1,W2はwideデータとなっているため「この3列が繰り返しのデータである」ことがパソコンは読み取れません。それがわかるためのものを2つ作ります。

まず繰り返しの順番がわかるtimeというベクトルを作ります。
このデータはfactor型である必要があるためfactor関数を使います。
そしてtimeのデータをdata.frame型に変更したidataを作ります。

 スクリーンショット 2019-11-24 10.11.33
そして大事なのがlevels = です。levels = を指定しないとfacorは五十音順になります。
今回は問題ないのですがもしpre,mid,postのように列名を付けるとlevels = を使わないとmid→post→preの順番になってしまいます。
factor関数に関しては【1-10】Rでよく使われる型について説明します。
 

③lm関数でモデルを作る
スクリーンショット 2019-11-25 23.38.40
次に分析するためのモデルを作ります。ここが前回の記事と唯一違うところです。

モデルはlm関数を使います。model(名前は何でもいい)という変数名に結果を入れます。

被験者内要因は3列になっているのでcbind関数でつなげます。
被験者間要因は~の右に入れます。もし被験者間要因が複数あれば * でつなぎます(交互作用を見たい場合)。もし交互作用を見ない場合は + でつなぎます。

そして必ず大切なのがcontrasts = の箇所です。
数学的には反復測定分散分析はタイプⅢ平方和というものを計算します。
詳しい話は井関龍太さんの記事にありますが、contrasts = を設定しないと正しいタイプⅢ平方和を計算してくれないため、この設定が必要となります。
使い方はcontrasts = list(〇 = contr.sum, △ = contr.sum, □ = contr.sum)のようにlist内で指定します。


④Anova関数で分散分析を実行する
スクリーンショット 2019-11-25 23.40.16
ここは前回の記事と全く同じです。
反復測定分散分析を行う時はcarパッケージのAnova関数を使います。Aは必ず大文字です。
res(resultの略、何でも良い)という変数名に結果を入れます。

Anova(lm関数で作ったモデル, idata = ◯◯, idesign = ~ ◯◯, type = "Ⅲ")

lm関数で作ったモデル:先程作ったmodel
idata:先程つくったidata
idesign:先程作ったtime(timeの前に を付けます)
type:"Ⅲ"または3とする(反復測定分散分析の場合は必ずⅢ)

スクリーンショット 2019-11-24 12.08.02

⑤summary関数で結果を表示する

summary(Anova関数の結果, multivariate = FALSE)

multivariate = FALSEと入れるとEZRと同じ結果が表示されます。

①〜⑤をまとめると以下になります

library(car)
time <- factor(c("W0", "W1", "W2"), levels = c("W0","W1", "W2"))
idata <- as.data.frame(time)
model <- lm(cbind(W0,W1,W2) ~ sex, 
            data = grip_rep_anova, 
            contrasts = list(sex = contr.sum))
res <- Anova(model, idata = idata, idesign = ~time, type = 3)
summary(res, multivariate = FALSE)


行が長くて大変ですが実は色の部分以外はコピペ可能です。
(被験者間要因があればまた変わります。次回記事で紹介します)
スクリーンショット 2019-11-25 23.51.29

結果はまずMauchlyの球面仮定を確認し、有意差がなければ上、あれば下をチェックします。

sex→握力は性別により変化する
time→握力は時間経過により変化する
sex:time→交互作用(時間経過に伴う握力の改善の程度は男女で異なるか)

スクリーンショット 2019-11-26 0.16.54
結果はEZRと同じになりました。

4.まとめ
今回は2要因以上ある反復測定分散分析を行いました。
前回の記事との違いは被験者間要因があるかどうかでした。
被験者間要因があるとcontrasts = 設定が必要になりますので注意が必要です。

そして前回・今回はEZRと同じ方法のcarパッケージのAnova関数を使いました。
ただどうしてもコードが長くなってしまいます。
ただRにはのANOVA君という分散分析に特化した非常に有名なスクリプトがあります。


次回はANOVA君を使った分散分析を紹介します。

5.今回使ったコード


#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-repeated-measures-anova.xlsx"
destfile <- "demo-repeated-measures-anova.xlsx" #今まで第4章の記事を読まれて実践されてる方は destfile <- "data/demo-repeated-measures-anova.xlsx"
download.file(url, destfile) #データの読み込み library(readxl) grip_rep_anova <- read_excel("data/demo-repeated-measures-anova.xlsx", range = "B2:E32") View(grip_rep_anova)

#sexの列もいれた反復測定分散分析 library(car) time <- factor(c("W0", "W1", "W2"), levels = c("W0","W1", "W2")) idata <- as.data.frame(time) model <- lm(cbind(W0,W1,W2) ~ sex, data = grip_rep_anova, contrasts = list(sex = contr.sum)) res <- Anova(model, idata = idata, idesign = ~time, type = 3) summary(res, multivariate = FALSE)





(2019年11月24日修正:8の②のfactor関数を修正しています)

第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回は繰り返しのある一元配置分散分析を紹介します



まず繰り返しのある一元配置分散分析(ANOVA)についてはハルさんのサイトをご参照ください。



また1.準備〜4.データの読み込みまでは【4-1】Rでt検定を行う方法と全く同じ流れになります。
もし1〜4まででわからない部分があれば確認してみてください。

 

1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。

 

ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。
スクリーンショット 2019-10-20 7.54.14


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。

スクリーンショット 2019-11-23 22.05.34



3.データのダウンロード


【1-13】Rで読み込みやすいExcelファイルの作り方今回もハルさんのサイトのデータを使わせていただきます。
実は分散分析を行う上で覚えておくと便利なExcelデータの作り方(列の並べ方)があります。
詳細は【1-13】Rで読み込みやすいExcelファイルの作り方で紹介しています。

デモデータ(反復測定分散分析)

この章ではRを使ってダウンロードしています。


download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)
urlはデモデータで右クリック → リンクのアドレスをコピー
destfileは保存場所と保存のファイル名を指定します。


実際のコードは以下になります。
前回のコードのURL(" "の中)とdestfileのdata/以降を変更するだけでOKです。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-repeated-measures-anova.xlsx"
destfile = "data/demo-repeated-measures-anova.xlsx"
download.file(url, destfile)
スクリーンショット 2019-11-23 22.14.17


dataフォルダにダウンロードできたことを確認します。


4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。

スクリーンショット 2019-11-23 22.15.57

データが入っているセルを確認します。
B2からC22までデータが入っています(B2:E32と表記)
スクリーンショット 2019-11-23 22.20.35


次にImport Datasetでデータを取り込みます。
スクリーンショット 2019-11-23 22.15.57


Import画面ではName, Sheet,Rangeを指定します。

Name:ハルさんのサイトではgripでしたがgrip_rep_anovaとします(大文字・小文字は別物とされます)
Sheet:このExcelは1つしかデータがないのでDefaultのままでOK
Range:先ほど確認したB2:E32(実は今回のように表以外に余計なものがなければ空欄でもOK)

スクリーンショット 2019-11-23 22.24.40

Importボタンを押す前に右にあるコードをコピーしスクリプトファイルに貼り付けることも忘れずに行います。
library(readxl)
grip_rep_anova <- read_excel("data/demo-repeated-measures-anova.xlsx", 
                             range = "B2:E32")
View(grip_rep_anova)

データが正しく入っていることを確認します。
スクリーンショット 2019-11-23 22.25.10


これでデータの取り込みは完成です。

5.被験者間要因と被験者内要因と分散分析のデザインについて
分散分析を行う上で大切なのが被験者間要因と被験者内要因についてです。
スクリーンショット 2019-11-24 6.33.40
被験者間要因はいわゆる対応のないデータのことで被験者全体をA法、B法の2つに割り振るといった方法です。なので同じ人がA法とB法を行うことはありません。
被験者内要因はいわゆる対応のあるデータのことで同じ人が繰り返し測定します

そして被験者間要因は列の左側に、被験者内要因は列の右側に並べると後々分析しやすくなります。
また被験者間要因は縦に、被験者内要因は横につなげるとEZRで分析を行うには都合がいいです。

仮に下のデータがあったとします。
スクリーンショット 2019-11-24 6.35.12
この並びが分散分析を行う上での基本的な形になります。
要因が3つ(sex, treatment, 繰り返し)あるのでABC
被験者間要因と被験者内要因の間にsを付ける
上記の場合はABsCデザインと言います。

今回はsexの列を使いませんので繰り返しの1要因のみで分散分析を実施します。
(sexの列を使った分析は次の記事で紹介します)

被験者間要因がありませんので、今回はsAデザインということになります。
繰り返しの群間に差があるかどうかを見たいということです。


6.正規分布かどうかを確認
分散分析を行うにはデータの分布が正規分布であることが必要です。
ハルさんのサイトに沿って正規分布の確認を行います。

正規分布の確認は【4-10】Rで分散分析(一元配置分散分析)を行う方法と基本的には同じですが、今回は繰り返しの部分がwideデータになっています。longデータであれば今までの記事で紹介した方法でまとめて出すことができますが、今回は1つずつ確認します。

今回ヒストグラムはgeom_histgram関数を使いますのでtidyverseパッケージを読み込みます。
EZRで正規性の確認をする時に併せて作成されるヒストグラムは棒が5本なのでbins = 5とすることにします。

library(tidyverse)
ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W0), bins = 5) 

ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W1), bins = 5) 

ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W2), bins = 5) 
スクリーンショット 2019-11-23 22.42.57


7.シャピロ・ウィルク検定
次にハルさんのサイトでは正規性の検定を行っています。
正規性の検討はshapriro.test関数3つのカテゴリーそれぞれに行う必要があります。
ここでもwideデータなので1つずつ行います。

shapiro.test((grip_rep_anova$W0))
shapiro.test((grip_rep_anova$W1))
shapiro.test((grip_rep_anova$W2))
スクリーンショット 2019-11-23 22.44.56


すべて正規分布であることが棄却されませんでした。


8.反復測定分散分析(repeated measures ANOVA)を行う

そして反復測定分散分析を行います。

反復測定分散分析を行うには主に2つの方法があります。

1.carパッケージのAnova関数を使う(EZRもcarパッケージを使ってる)
2.ANOVA君を使う

ANOVA君は井関龍太さんが作成した分散分析に特化したスクリプトです。
使い方に特徴がありますが使えるようになると慣れると簡単でどの方法よりも詳細に分析できます。

ここではまず1の方法を紹介します。

反復測定分散分析を行うには次の方法になります。




①carパッケージを読み込む

まずはcarパッケージを読み込みます。
carパッケージはEZRをインストールする時に一緒にインストールされています。
もしインストールしていなければ先にインストールします。

install.packages("car")

その後library関数で呼び出します。
library(car)

②被験者要因を指定するdata.frameを準備する

今回のデータではsexの列は「MとFの2つのデータがある」とパソコンは読み取れますがW0,W1,W2はwideデータとなっているため「この3列が繰り返しのデータである」ことがパソコンは読み取れません。それがわかるためのものを2つ作ります。

まず繰り返しの順番がわかるtimeというベクトルを作ります。
このデータはfactor型である必要があるためfactor関数を使います。
そしてtimeのデータをdata.frame型に変更したidataを作ります。

 スクリーンショット 2019-11-24 10.11.33
そして大事なのがlevels = です。levels = を指定しないとfacorは五十音順になります。
今回は問題ないのですがもしpre,mid,postのように列名を付けるとlevels = を使わないとmid→post→preの順番になってしまいます。
factor関数に関しては【1-10】Rでよく使われる型について説明します。
 

③lm関数でモデルを作る

次に分析するためのモデルを作ります。
モデルはlm関数を使います。model(名前は何でもいい)という変数名に結果を入れます。
被験者内要因は3列になっているのでcbind関数でつなげます。
被験者間要因は今回無いので1とします。もしあると別の設定も必要ですが次の記事で紹介します。

スクリーンショット 2019-11-24 11.55.22
④Anova関数で分散分析を実行する



反復測定分散分析を行う時はcarパッケージのAnova関数を使います。Aは必ず大文字です。
res(resultの略、何でも良い)という変数名に結果を入れます。

Anova(lm関数で作ったモデル, idata = ◯◯, idesign = ~ ◯◯, type = "Ⅲ")

lm関数で作ったモデル:先程作ったmodel
idata:先程つくったidata
idesign:先程作ったtime(timeの前に を付けます)
type:"Ⅲ"または3とする(反復測定分散分析の場合は必ずⅢ)
スクリーンショット 2019-11-24 12.08.02

⑤summary関数で結果を表示する

summary(Anova関数の結果, multivariate = FALSE)

multivariate = FALSEと入れるとEZRと同じ結果が表示されます。

①〜⑤をまとめると以下になります
library(car)
time<- factor(c("W0", "W1", "W2"), levels = c("W0","W1", "W2")) idata <- as.data.frame(time) model <- lm(cbind(W0,W1,W2) ~ 1, data = grip_rep_anova) res <- Anova(model, idata = idata, idesign = ~time, type = 3 ) summary(res, multivariate = FALSE)
スクリーンショット 2019-11-24 21.02.57
行が長くて大変ですが実は色の部分以外はコピペ可能です。
(被験者間要因があればまた変わります。次回記事で紹介します)

スクリーンショット 2019-11-24 12.51.33
このあたりはハルさんのサイトと同じです。
EZRと同じ結果になります。

9.多重比較を行う

EZRの多重比較はEZR独自の関数を使っています。
そのため今回はpairwise.t.test関数を使います。
(被験者間要因があると使えないので注意!)
ただpairwise.t.test関数はlongデータで行う必要があります。

wideデータをlongデータに変えるにはgather関数、またはpivot_longer関数を使います。
wideデータとlongデータの切り替えは【2-5】Rでデータを集計するのに便利なlongデータとgather関数で紹介しています。

pairwise.t.test(数値, グループ, p.adjust.method = "◯◯")
〇〇はここでは3つの方法を紹介します。

bonferroni
holm
hochberg


grip_rep_anova_long <- 
  grip_rep_anova %>% 
  gather(key = "key", value = "value", W0:W2)

pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "bonferroni")
pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "holm")
pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "hochberg")

スクリーンショット 2019-11-24 13.17.18


10.まとめ

今回は反復測定分散分析を紹介しました。
今までの手法に比べると手続きが必要ですが、慣れるとコピペでもできるようになります。
次回は被験者間要因も含めた混合計画反復測定分散分析を紹介します。


11.今回使ったコード

今回使ったコードは以下になります。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-repeated-measures-anova.xlsx"
destfile <- "data/demo-repeated-measures-anova.xlsx"

download.file(url, destfile)

#データの読み込み
library(readxl)
grip_rep_anova <- read_excel("data/demo-repeated-measures-anova.xlsx", 
                             range = "B2:E32")
View(grip_rep_anova)

#正規分布の確認
library(tidyverse)
ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W0), bins = 5) 

ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W1), bins = 5) 

ggplot(data = grip_rep_anova) +
  geom_histogram(aes(x = W2), bins = 5) 

shapiro.test((grip_rep_anova$W0))
shapiro.test((grip_rep_anova$W1))
shapiro.test((grip_rep_anova$W2))


#carパッケージのインストールしたことなければインストール
install.packages("car")

#反復測定分散分析を行う
library(car)
time<- factor(c("W0", "W1", "W2"), levels = c("W0","W1", "W2"))
idata <- as.data.frame(time)
model <- lm(cbind(W0,W1,W2) ~ 1, data = grip_rep_anova)
res <- Anova(model, idata = idata, idesign = ~time, type = 3)
summary(res, multivariate = FALSE)

#多重比較
grip_rep_anova_long <- 
  grip_rep_anova %>% 
  gather(key = "key", value = "value", W0:W2)

pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "bonferroni")
pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "holm")
pairwise.t.test(grip_rep_anova_long$value, grip_rep_anova_long$key, paired = TRUE, p.adjust.method = "hochberg")



第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回はKruskal-Wallis(クラスカル・ウォリス)検定を紹介します



まずKruskal-Wallis(クラスカル・ウォリス)検定についてはハルさんのサイトをご参照ください。



また1.準備〜4.データの読み込みまでは【4-1】Rでt検定を行う方法と全く同じ流れになります。
もし1〜4まででわからない部分があれば確認してみてください。

 

1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。

 

ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。
スクリーンショット 2019-10-20 7.54.14


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。


スクリーンショット 2019-11-12 7.48.34


3.データのダウンロード

今回もハルさんのサイトのデータを使わせていただきます。

デモデータ(Kraskal-Wallis検定)

この章ではRを使ってダウンロードしています。


download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)
urlはデモデータで右クリック → リンクのアドレスをコピー
destfileは保存場所と保存のファイル名を指定します。


実際のコードは以下になります。
前回のコードのURL(" "の中)とdestfileのdata/以降を変更するだけでOKです。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-kruskal-wallis-test.xlsx"
destfile = "data/demo-kruskal-wallis-test.xlsx"

download.file(url, destfile)
スクリーンショット 2019-11-12 20.43.14


dataフォルダにダウンロードできたことを確認します。


4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。

スクリーンショット 2019-11-12 7.50.38




データが入っているセルを確認します。
B2からC92までデータが入っています(B2:C92と表記)
スクリーンショット 2019-11-12 7.51.15



次にImport Datasetでデータを取り込みます。
スクリーンショット 2019-11-12 7.50.38


Import画面ではName, Sheet,Rangeを指定します。

Name:ハルさんのサイトではBWでしたがbw_kwとします(大文字・小文字は別物とされます)
Sheet:このExcelは1つしかデータがないのでDefaultのままでOK
Range:先ほど確認したB2:C92

スクリーンショット 2019-11-12 20.43.55


Importボタンを押す前に右にあるコードをコピーしスクリプトファイルに貼り付けることも忘れずに行います。
#データの読み込み
library(readxl)
bw_kw <- read_excel("data/demo-kruskal-wallis-test.xlsx", 
                    range = "B2:C92")
View(bw_kw) 

データが正しく入っていることを確認します。
スクリーンショット 2019-11-12 20.46.07


これでデータの取り込みは完成です。

5.正規分布の確認

ハルさんのサイトに沿って正規分布の確認を行います。

正規分布の確認は【4-1】Rでt検定を行う方法で紹介しています。
以下のコードがイメージできない場合はまずこちらの記事をご参照ください。

 

まずヒストグラムで分布を確認します。
1つずつグラフを作るのは手間がかかるので、まとめてグラフを作ります。

ヒストグラムはgeom_histgram関数を使います。
グラフが重なっていると見にくいのでfacet.gridでカテゴリーごとにグラフを分けます。
ちなみに【4-10】Rで分散分析(一元配置分散分析)を行う方法で作ったヒストグラムのコピペでできてしまいます。変数名を変えるだけです。




library(tidyverse)
ggplot(data = bw_kw) +
  geom_histogram(aes(x = BW, fill = category), bins = 5) +
  facet_grid(category ~ .)
スクリーンショット 2019-11-08 15.27.34

6.シャピロ・ウィルク検定
次にハルさんのサイトでは正規性の検定を行っています。
正規性の検討はshapriro.test関数3つのカテゴリーそれぞれに行う必要があります。

今回はsplit関数map関数を使いまとめて行ってみます。
これも【4-10】Rで分散分析(一元配置分散分析)を行う方法で作ったコードと全く同じです。
変数名を変えるだけです。

コードを使うと他でも役に立つことがわかります。

bw_kw %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$BW))
スクリーンショット 2019-11-12 20.54.55


まとめて結果が出ました。全てp < 0.05ですので正規分布であるという仮説が棄却されました。

7.グラフを作る
今回はノンパラメトリックの検定を行うので箱ひげ図を作成します。
箱ひげ図の作り方は【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数で紹介しています。

ggplot(data = bw_kw) +
  geom_boxplot(aes(x = category, y = BW))
スクリーンショット 2019-11-15 8.01.00


もしEZRと同じようなグラフであればboxplot関数も使えるので併せて消化しします。

boxplot(数値 ~ グループ, data = ◯◯)
boxplot(数値 ~ グループ)


boxplot(BW ~ category, data = bw_kw)
スクリーンショット 2019-11-15 8.01.06



8.Kruskal-Wallis(クラスカル・ウォリス)検定を行う

正規性が棄却されましたので今回はノンパラメトリックのKruskal-Wallis(クラスカル・ウォリス)検定を行います。


Kruskal-Wallis検定はEZRではkruskal.test関数を使います。

kruskal.test(目的変数 ~ factor(グループ), data = データ)

目的変数:BW
グループ:factor(category)
data = bw_kw

kruskal.test(BW ~ factor(category), data=bw_kw)
スクリーンショット 2019-11-13 16.53.51

EZRと同じ関数を使っているので同じ結果になりました。


またMann-Whitney U 検定のときに紹介したcoinパッケージでも行うことができます。
もしcoinパッケージを使ったことがなければインストールします。

#coinパッケージのインストール
#1度でもしていればしなくてOK
install.packages("coin")

coinパッケージのkruskal_test関数はkruskal.test関数と同じ使い方です。
使う前にlibrary関数で呼び出します。
そしてグループにはfactor関数もしくはas.factor関数でfactor型に変更します。

kruskal_test(目的変数 ~ factor(グループ), data = データ)

library(coin)

kruskal_test(BW ~ factor(category), data=bw_kw)
スクリーンショット 2019-11-13 22.38.20

Asymptotic(漸近的:正規近似)とあるので正確検定ではないようです。
そのためEZRと同じ結果になりました。
実は3以上のグループではなく2変数だと正確検定を行うことができます。



9.多重比較(Steel-Dwass法)を行う

EZRで使っていたSteel-Dwass法はEZR専用のパッケージなので、Rで行うにはNSM3パッケージpSDCFlig関数を使う必要があります。
ちなみにEZRのSteel-Dwass法は正確検定ではなく正規近似を行います。
NSM3パッケージではデータ数が少なければ正確近似ができますが、データ数が大きくなると計算量が膨大になりすぎて実施できません。モンテカルロ法もしくは正規近似を行うことになります。今回の90例では正確近似はできませんでした。
正規近似と正確検定、Steel-Dwass法の使い方に関しては多重比較 Steel-Dwass 正規近似と正確検定: U 検定が基準に詳しく紹介されています。
#EZRと同じ正規近似で行う場合
pSDCFlig(目的変数, factor(グループ), method = "Asymptotic")

#正確検定を行いたい場合(データが多いと自動的にモンテカルロ法になる)
pSDCFlig(目的変数, factor(グループ))

目的変数:bw_kw$BW
グループ:factor(bw_kw$category)
*グループはfactor型にする必要があるためfactor関数as.factor関数を使います。
*今回もdata = ◯◯ は使えないので を使います。

#Steel-Dwass法を行うためにNSM3パッケージをインストール
#1度でもインストールしてたらこの1行は必要なし
install.packages("NSM3")

#NSM3パッケージの呼び出し
library(NSM3)

#EZRと同じ正規近似で行う場合
pSDCFlig(bw_kw$BW, factor(bw_kw$category), method = "Asymptotic")

#正確検定を行いたい場合(データが多いと自動的にモンテカルロ法になる)
#結果に時間がかかるので注意! pSDCFlig(bw_kw$BW, factor(bw_kw$category))
スクリーンショット 2019-11-15 2.39.39

それぞれのp値は以下になりました。
大きな差はありません。
A-B:正規近似0.014、モンテカルロ0.0142
A-C:正規近似0.0255、モンテカルロ0.0249
B-C:正規近似0.9006、モンテカルロ0.902


10.ひとまずまとめ

今回はRでKruskal-Wallis(クラスカル・ウォリス)検定と多重比較であるSteel-Dwass法の紹介をしました。ハルさんのサイトではここまでですがBonferroniやHolm法でp値の調整をするにはどうしたら良いのか?Mann-Whitney U検定でさんざん問題になったタイと正確検定に関してはどうなったんだ?という方は続きがありますので興味がある方は続きをご覧ください。

次回は反復測定分散分析を紹介します。



11.他の多重比較の方法

一元配置分散分析でも紹介しましたが、他の多重比較にはBonferroniHolmHochbergなどがあります。



一元配置分散分析の多重比較ではpairwise.t.test関数を使いましたが、Kruskal-Wallisではpairwise.wilcox.test関数を使います。簡単に言うと全ての組み合わせでMann-Whitney U検定を行いその結果を元にp値の調整を行います
どの方法を使うかはp.adjust.method = で指定します。

pairwise.wilcox.test(目的変数factor(グループ),  p.adjust.method = "◯◯")

pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "bonferroni")
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "holm")
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "hochberg")
スクリーンショット 2019-11-15 19.11.42

ただ、この方法だと警告が出ます。タイ(同順位)があるためです。
タイに関してはMann-Whitney U検定で紹介しました。




今回はずっと正規近似で行っているので正確近似で出すのであれば exact = FASEを追記します。
そうすればエラーは出ません。

pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "bonferroni", exact = FALSE)
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "holm", exact = FALSE)
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "hochberg", exact = FALSE)
スクリーンショット 2019-11-15 19.21.16


11.どうしても正確検定を行いたい!!!という方は手計算が必要

多重比較は各組み合わせでMann-Whitney U検定を行いその結果を元にp値の調整を行います。
ただpairwise_wilcox_test関数が存在せず自分で手計算するしかありません。

そのためどうしても正確検定を行いたい場合はcoinパッケージwilcox_test関数を使い、1つずつ組み合わせを行い、BonferroniHolmHochbergそれぞれの方法で自分でp値を直接計算することになります。

この方法は統計ERさんの記事に詳しく紹介されています。
更にBonferroniHolmHochbergって何をしてるの?という疑問も解決するかもしれません。
仕組みがわかればp値に2とか3とかかけるだけなので意外と単純です。



12.本当にまとめ
今回はRでKruskal-Wallis(クラスカル・ウォリス)検定と多重比較であるSteel-Dwass法の紹介をしました。ノンパラメトリック検定はタイと正確検定をするか正規近似を行うか?の問題がありますが、Mann-Whitney U検定のちゅんたろさんのツイートがここでも参考になると思います。


そしてそもそもp値がより小さければより差が大きいわけではありませんので、正確検定か正規近似か?よりも研究デザインが適切かどうかの方が大切になるかもと言うのが個人的なイメージです。

次回は反復測定分散分析を紹介します!

13.今回使ったコード

今回使ったコードを紹介します。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/05/demo-kruskal-wallis-test.xlsx"
destfile = "data/demo-kruskal-wallis-test.xlsx"

download.file(url, destfile)

#データの読み込み
library(readxl)
bw_kw <- read_excel("data/demo-kruskal-wallis-test.xlsx", 
                    range = "B2:C92")
View(bw_kw) 

#正規性の確認
library(tidyverse)
ggplot(data = bw_kw) +
  geom_histogram(aes(x = BW, fill = category), bins = 5) +
  facet_grid(category ~ .)


bw_kw %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$BW))

#グラフの作成
ggplot(data = bw_kw) +
  geom_boxplot(aes(x = category, y = BW))

boxplot(BW ~ category, data = bw_kw)

#Kruskal-Wallis検定
kruskal.test(BW ~ factor(category), data = bw_kw)

#coinパッケージでKruskal-Wallis検定を行う場合
library(coin)
kruskal_test(BW ~ factor(category), data = bw_kw)


#Steel-Dwass法を行うためにNSM3パッケージをインストール
#1度でもインストールしてたらこの1行は必要なし
install.packages("NSM3")

#NSM3パッケージの呼び出し
library(NSM3)

#EZRと同じ正規近似で行う場合
pSDCFlig(bw_kw$BW, factor(bw_kw$category), method = "Asymptotic")

#正確検定を行いたい場合(データが多いと自動的にモンテカルロ法になる)
#結果に時間がかかるので注意!
pSDCFlig(bw_kw$BW, factor(bw_kw$category))


#他の多重比較

pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "bonferroni")
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "holm")
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "hochberg")

#正規近似を使えば警告は出ない。exact = FALSEを追加すれば良い
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "bonferroni", exact = FALSE)
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "holm", exact = FALSE)
pairwise.wilcox.test(bw_kw$BW, as.factor(bw_kw$category), p.adjust.method = "hochberg", exact = FALSE)


全記事の目次はこちらをご参照ください

 


↑このページのトップヘ