タグ:t.test

第4章では統計の中でも検定を扱っています。

ここまでいろいろな検定を行ってきましたが、グラフを作る時はどうするでしょうか?

【4-6】Rのt検定の結果からp値や信頼区間の数値を取り出す方法では検定した結果を取り出す方法を紹介しました。

今回は取り出したデータで95%信頼区間のグラフを作る方法を紹介します。

データとt検定のコードは以下になります。
前回の記事でこのコードの解説をしていますのでわからない場合は先に確認をお願いします。


set.seed(2019)
male <- rnorm(50, 170, 10)
set.seed(2019)
female <- rnorm(50, 165, 10)
height <- c(male, female)
sex <- c(rep("male", length(male)), rep("female", length(female)))
dat_height <- tibble(height, sex)
head(dat_height)

res_height <- t.test(height ~ sex, var = TRUE, data = dat_height)


1.データを取り出す
まずはp値、95%信頼区間のデータを取り出してみます。
これも前回の記事で紹介しています。

p:p値
conf.low:95%信頼区間の小さい方
conf.high:95%信頼区間の大きい方
p <- res_height$p.value
conf.low <- res_height$conf.int[1]
conf.high <- res_height$conf.int[2]
p conf.low conf.high
スクリーンショット 2019-11-07 18.28.31
この数字をグラフに乗せると小数点が多すぎるのでround関数で丸めます。
今回はp値は小数点第3位、95%信頼区間は小数点第2位までにしてみます。
p <- round(res_height$p.value, 3)
conf.low <- round(res_height$conf.int[1], 2)
conf.high <- round(res_height$conf.int[2], 2)
p conf.low conf.high
スクリーンショット 2019-11-07 18.32.21
これでグラフに貼り付けやすくなりました。

2.グラフを作成する

今回はうまくいかないグラフも載せることでグラフを作る流れもお見せできればと思います。
目標は以下のようなグラフを作ることです。
スクリーンショット 2019-11-07 22.35.17


第3章で使ってきたtidyverseパッケージのggplot関数を使います。
もしggplotの使い方がわからない場合はこちらをご参照ください。




最初にtidyverseパッケージを呼び出します。
library(tidyverse)
まずグラフを作ってみます。
今回使うのはgeom_errorbar関数を使います。
geom_errorbar関数はaes関数の中に3つの要素が必要です。

x
:x軸
ymin:エラーバーの最小値
ymax:エラーバーの最大値

x軸に値するものは今回ないので空欄にしておきます。
yminとymaxはconf.lowとconf.highになります。

x:""
ymin:conf.low
ymax:conf.high

ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high))
スクリーンショット 2019-11-07 20.35.07
なんだかすごいグラフができました。
まずは横向きにします。
グラフを横向きにするのはcoord_flip関数です。()には何も入れません。
ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high)) +
  coord_flip()
スクリーンショット 2019-11-07 20.36.15
これで横向きになりましたが線が幅長いので短くします。
width = で指定します。今回は0.1にしました。widthはaes関数の外に配置します。
ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  coord_flip()
スクリーンショット 2019-11-07 20.39.18
これでエラーバーっぽくなりました。
今度は数値を入れます。
文字を打ち込むのでgeom_text関数を使います。
geom_text関数のaes()では3つ指定します。
coord_frip()を使っているのでx軸が縦、y軸が横になっていることに注意します。

x:文字を置くx軸の位置→今回は空欄
y:文字を置くy軸の位置→conf.lowとconf.highの2つ
label:実際の文字→conf.lowとconf.highの2つ


conf.lowとconf.highの2つのデータを入れるのでc関数でつなげます。

x:""
y:c(conf.low, conf.high)
label:c(conf.low, conf.high)

ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_text(aes(x = "", y = c(conf.low, conf.high), label = c(conf.low, conf.high))) +
  coord_flip()
スクリーンショット 2019-11-07 20.51.35
数字が出てきましたがグラフとぶつかってしまいます。
vjust =で調整します。
上に上げるときはマイナスの値を入れます。今回は試してみて-1.5にしました。
ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_text(aes(x = "", y = c(conf.low, conf.high), label = c(conf.low, conf.high)), vjust = -1.5) +
  coord_flip()
スクリーンショット 2019-11-07 22.24.29
これでグラフができましたが、y軸(グラフを横にしたから下がy軸になっている)の名前を変えてみます。labs関数を使って「95%信頼区間」と入れてみます。xも消します(空欄にする)。
ggplot() +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_text(aes(x = "", y = c(conf.low, conf.high), label = c(conf.low, conf.high)), vjust = -1.5) +
  labs(x = "", y = "95%信頼区間") + 
  coord_flip()
スクリーンショット 2019-11-07 21.00.00
Windowの場合はこれで完成かもしれませんが、Macだと日本語が□□□と豆腐になってしまいます。
Macの方はtheme_◯◯関数base_family = を指定します。
今回はヒラギノ角ゴproW3を指定します。
ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_text(aes(x = "", y = c(conf.low, conf.high), label = c(conf.low, conf.high)), vjust = -1.5) +
  labs(x = "", y = "95%信頼区間") + 
  coord_flip()
スクリーンショット 2019-11-07 21.03.37
今回のt検定は2群の差が0と仮定していました。0のラインで赤線を足してみます。
y軸に垂直な線を引くにはgeom_hline関数を使います。
かならずいるのはyintercept = です。color = は付けなければ黒になります。
aesは付けなくて大丈夫です。

geom_hline(yintercept = ◯, color = "色名")

ggplot() +
  theme_gray(base_family = "HiraKakuPro-W3") +
  geom_hline(yintercept = 0, color = "red") +
  geom_errorbar(aes(x = "", ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_text(aes(x = "", y = c(conf.low, conf.high), label = c(conf.low, conf.high)), vjust = -1.5) +
  labs(x = "", y = "95%信頼区間") + 
  coord_flip()
スクリーンショット 2019-11-07 22.35.17

3.まとめ
今回は検定の結果から値を取り出してグラフを作成しました。

グラフの要素を1つずつ追加しました。ブログに書かれているコードは長くて読みにくいかもしれませんが、「今度はこの要素を付け加えたい」という順番にコードを書けばその通りにグラフができるのもRの特徴の1つです。

今回の順番は1例ですので順番を変えて1つずつ作ってみていただければggplotの理解も深まりやすいと思います。



第4章では統計の中でも検定を扱っています。

ここまでいろいろな検定を行ってきましたが、グラフを作る時はどうするでしょうか?

スクリーンショット 2019-10-27 21.42.47

これは【4-1】Rでt検定を行う方法で行ったt検定の結果です。
p値があり、下には95%信頼区間、その下には各グループの平均が記載されています。

p = 0.00975
95%信頼区間:-12.154877 〜 -1.745123
A:28.12
B:35.07

この数値をグラフなどにするには手で打ち直すかコピペをすることが多いと思います。
今回はこの数値がどこに入っているのか?どうやって取り出せばいいのかという話です。

今回は架空のデータを使いますがもし第4章を実践された方はそのデータでも大丈夫です。


1.使うデータ

こんなデータを作りました。
男性:50人、平均170cm、標準偏差10cm
女性:50人、平均165cm、標準偏差10cm

set.seed(2019)
male <- rnorm(50, 170, 10)
set.seed(2019)
female <- rnorm(50, 165, 10)
height <- c(male, female)
sex <- c(rep("male", length(male)), rep("female", length(female)))
dat_height <- tibble(height, sex)
head(dat)

rnorm関数(個数、平均、標準偏差)を指定すると疑似データを作ってくれます。
heightの列に男女のデータをc関数でくっつけ100人のデータにします。
sexの列は(男性,男性,男性,,,,女性,女性,女性,,,,,)としたいのでrep関数を使いました。
rep(繰り返したいもの, 回数)と使います。
tibble関数でheightとsexをつなげました。

2.t検定をする

これをt検定してみます。
t検定は【4-1】Rでt検定を行う方法で紹介しています。


等分散かどうかはそもそも等分散になるようデータを作りましたのでvar = TRUEを付けます。

t.test(height ~ sex, var = TRUE, data = dat_height)
スクリーンショット 2019-11-06 20.37.39

ここまでできました。

このままだとデータは取り出せません。結果を変数に入れます。
今回はres_heightとします
res_height <- t.test(height ~ sex, var = TRUE, data = dat_height)

3.結果からデータを取り出す

すると右上のEnvironmentタブに結果が格納されます。
スクリーンショット 2019-11-06 20.59.45


スクリーンショット 2019-11-06 21.05.31

データをみるとList of 10とあります。
リストというのはExcelのシートが10個あって、それぞれにデータが入っているというイメージです。
一番左がExcelでいうシート名です。
スクリーンショット 2019-11-07 0.13.47


リストの各データを呼び出すのは$もしくは[[ ]]を使います。
p値はp.valueに入っていますのでこうなります。
スクリーンショット 2019-11-07 0.30.11
res_height$p.value

res_height[["p.value"]]
スクリーンショット 2019-11-07 1.06.18

もし小数点以下を四捨五入したい場合はround関数を使います。

round(res_height$p.value, 3)

round(res_height[["p.value"]], 3)
スクリーンショット 2019-11-07 1.06.07


95%信頼区間はconf.intに入っています。
ただそのまま出すと2つのデータが出てきます(95%信頼区間の最小と最大)。
それぞれの値を取り出すには[ ] を使います。[[ ]]ではないので注意してください。
[ ]は【1-12】Rで特定の条件にあう要素を抜き出す方法で紹介しましたが、条件式ではなくただの数値をいれると◯番目のデータを取り出してくれます。

[1]だと1つ目のデータ(つまり最小)
[2]だと2つ目のデータ(つまり最大)が取り出せます。

res_height$conf.int[1]
res_height[["conf.int"]][2]
スクリーンショット 2019-11-07 1.03.41

そして点推定である各平均はestimateに入っています。
res_height$estimate
res_height$estimate[1]
res_height[["estimate"]][2]
スクリーンショット 2019-11-07 2.04.43



4.データを取り出すメリット
結果をコピペしても問題はないのですが、こうすることでのメリットがあります。

それはもし後でデータが変わったとしてもコード自体は何も変えなくていいことです。
考えたくはありませんが、後でデータが増えた、実は個々の数値が間違ってた等あると結果も変わります。しかしデータをコードで取り出しておくと、データが変わっても自動的に数値が更新されるのでミスする可能性が減ります。元データを修正するだけでいいというのはExcelやEZRでは簡単にはできません。

5.まとめ
今回は検定の結果からデータを取り出す方法を紹介しました。
検定の種類によっては取り出し方が違うこともありますが、まずは結果が格納されたデータをみるとヒントがあるかもしれません。

次回は取り出した値を使って95%信頼区間のグラフを作る方法を紹介します。



第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回は対応のあるt検定を紹介します



まず対応のあるt検定についてはハルさんのサイトをご参照ください。



また1.準備〜4.データの読み込みまでは【4-1】Rでt検定を行う方法と全く同じ流れになります。
もし1〜4まででわからない部分があれば確認してみてください。

 

1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。

 

ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。
スクリーンショット 2019-10-20 7.54.14


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。

スクリーンショット 2019-11-03 8.11.46


3.データのダウンロード

今回もハルさんのサイトのデータを使わせていただきます。

デモデータ(対応のあるt検定)


この章ではRを使ってダウンロードしています。


download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)
urlはデモデータで右クリック → リンクのアドレスをコピー
destfileは保存場所と保存のファイル名を指定します。


実際のコードは以下になります。
前回のコードのURL(" "の中)とdestfileのdata/以降を変更するだけでOKです。
url <- "https://haru-reha.com/wp-content/uploads/2018/04/demo-paired-t-test.xlsx"
destfile = "data/demo-paired-t-test.xlsx"

download.file(url, destfile)
スクリーンショット 2019-11-03 18.54.08



dataフォルダにダウンロードできました!
スクリーンショット 2019-11-03 18.54.56



4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。

スクリーンショット 2019-11-03 18.53.56


データが入っているセルを確認します。
B2からC62までデータが入っています(B2:D32と表記)
スクリーンショット 2019-11-03 18.55.57

次にImport Datasetでデータを取り込みます。
スクリーンショット 2019-11-03 18.53.56

Import画面ではName, Sheet,Rangeを指定します。

Name:ハルさんのサイトと同じgaitとします(大文字・小文字は別物とされます)
Sheet:このExcelは1つしかデータがないのでDefaultのままでOK
Range:先ほど確認したB2:D32

スクリーンショット 2019-11-03 19.01.56


Importボタンを押す前に右にあるコードをコピーしスクリプトファイルに貼り付けることも忘れずに行います。
library(readxl)
gait <- read_excel("data/demo-paired-t-test.xlsx", 
                   range = "B2:D32")
View(gait)

データが正しく入っていることを確認します。
スクリーンショット 2019-11-03 19.03.14


これでデータの取り込みは完成です。


5.正規性の確認

正規性の確認は【4-1】Rでt検定を行う方法でも紹介しました

今回ハルさんのサイトではdifferenceの列の正規性をQQプロットを使って確認しています。

QQプロットの出し方はいくつかありますが、ここでは2つ紹介します。

まずはqqline関数です。
qqline(y = gait$difference)
スクリーンショット 2019-11-03 19.36.51
もしEZRと同じグラフが出したい場合はcarパッケージqqPlot関数を使います(Pが大文字なので注意!)
Packagesにcarパッケージが入っていれなければinstall.packages関数でインストール後library関数で呼び出します。

ちなみに先程のqqline関数y = でしたが、qqPlot関数x = となっています。 

install.packages("car")

library(car) qqPlot(x = gait$difference)
スクリーンショット 2019-11-03 19.43.26

こうすることでEZRを開かなくても同様のことが行なえます。
確認するのが目的であればEZRでいいと思いますが、1年後に再現しようと思ったらスクリプトに残しておくと再現性が高まります。

ヒストグラムはgeom_histgramもしくはhist関数を使います。
library(tidyverse)
ggplot(data = gait)+
  geom_histogram(aes(x = difference), bins = 5)

hist(gait$difference)
スクリーンショット 2019-11-03 19.52.12

シャピロウィルク検定は【4-1】Rでt検定を行う方法でも紹介しましたがshapiro.testでした。
shapiro.test(gait$difference)
スクリーンショット 2019-11-03 19.55.47


6.対応のあるt検定を行う

対応のあるt検定は実は【4-1】Rでt検定を行う方法でも紹介したt.test関数paired = TRUEを足すだけです。ちなみに対応のないt検定はpaired = FALSEをしていることになります。何も書かなければpaired = FALSEになります。

t検定は2種類の書き方があります。その違いはデータの形にあります。
ハルさんのサイトでEZRでは右の形しかできませんでしたがRならどちらも可能です
ちなみに左をlongデータ(縦に長い)、右をwideデータ(横に広い)といいます。
スクリーンショット 2019-11-03 20.03.44

下の図【4-1】Rでt検定を行う方法で紹介しましたが、これにpaired = TRUEを付け加えます。ただlongデータで行う場合はAの並び順とBの並び順が違うと計算結果が異なりますので注意が必要です。
スクリーンショット 2019-10-27 8.09.41

今回はwideデータなので以下のようになります。
var = は外しています。

t.test(gait$pre, gait$post, paired = TRUE)

スクリーンショット 2019-11-03 20.12.08

EZRと同じ結果になりました。

更に95%信頼区間は41.46340 - 86.86993となっており、差の平均(期待値)は64.16667となっています。

どういうことかと言うと、対応のあるt検定は2つの差(ここではpost - pre)が0であると仮定しています。そして95%信頼区間に0が含まれているとpは0.05以上と判断されます。
例えば差の平均(期待値)が20でも95%信頼区間が-30 〜50といった具合です。

スクリーンショット 2019-11-03 20.37.08
上のsampleの場合、差の平均(期待値)は20とプラスなのでpostの方がより高い値と言えそうですが、95%信頼区間に0やマイナスが含まれています。言い換えると20だったけど-10にだってなり得るし、0にだってなり得るとなります。そうなればpostの方が高い値といえません。

ちなみに今回は差(期待値)が0を仮定していたので0でしたが、例えばロジスティック回帰分析だとodd比が1であると仮定するので、そのときは1を挟むかどうかを確認することになります。

p値だけでなく信頼区間を確認するとまた発見があるかもしれません。


7.まとめ

今回は対応のあるt検定を行いました。
実際には対応のないt検定にpaired = TRUEを付け加えるだけでした。

4章を順に見ていくと重複する箇所も出てきますので検索で来られた方はサイトマップを見ていただければ別の発見があるかもしれません。




8.今回使ったコード

今回使ったコードをまとめて置いておきます。
95%信頼区間のコードも載せています。


#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/04/demo-paired-t-test.xlsx"
destfile = "data/demo-paired-t-test.xlsx"

download.file(url, destfile)

#データの読み込み
library(readxl)
gait <- read_excel("data/demo-paired-t-test.xlsx", 
                   range = "B2:D32")
View(gait)

#正規性の検定

#qqplot
qqline(y = gait$difference)

#carパッケージの
install.packages("car")
library(car)
qqPlot(x = gait$difference)

#ヒストグラム
library(tidyverse)
ggplot(data = gait)+
  geom_histogram(aes(x = difference), bins = 5)

hist(gait$difference)

#シャピロ・ウィルク検定
shapiro.test(gait$difference)

#t検定
t.test(gait$pre, gait$post, paired = TRUE)

#信頼区間
gait_ttest <- t.test(gait$pre, gait$post, paired = TRUE)

conf <- data.frame(conf.low = c(-30, round(gait_ttest$conf.int[[1]], 3)), conf.high = c(50,round(gait_ttest$conf.int[[2]],3)), mean = c(20,round(gait_ttest$estimate, 3)), x = c("sample", "post - pre"))
ggplot(data = conf) +
  geom_errorbar(aes(x = x, ymin = conf.low, ymax = conf.high), width = 0.1) +
  geom_hline(yintercept = 0, color = "red") +
  geom_text(aes(label = conf.low, x = x, y = conf.low), vjust = -1) +
  geom_text(aes(label = conf.high, x = x, y = conf.high), vjust = -1) +
  geom_text(aes(label = mean, x = x, y = mean), vjust = -1) +
  geom_point(aes(x = x, y = mean)) +
  labs(x = "", y = "")+
  coord_flip()

第4章は統計を扱います。


今回「シロート統計学」のハルさんとコラボレーションすることとなりました。


ハルさん、ありがとうございます!


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。




第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回はt検定を紹介します



まずt検定についてはハルさんのサイトをご参照ください。

 



1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。



ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。

スクリーンショット 2019-10-25 12.15.42

完成です。
スクリーンショット 2019-10-25 12.18.51


3.データのダウンロード

今回はハルさんのサイトのデータを使わせていただきます。

デモデータ(t検定)

これをダウンロードしてdataフォルダに入れればいいのですが実はRでできてしまいます
download.file関数を使います。" "を忘れないようにしてください。

url <- "https://haru-reha.com/wp-content/uploads/2018/03/demo-t-test.xlsx"
destfile = "data/demo-t-test.xlsx"

download.file(url, destfile)

以下説明します。

download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)


urlはデモデータで右クリック → リンクのアドレスをコピー

destfileは保存場所と保存のファイル名を指定します。
保存場所は今回プロジェクトを使っているのでR練習フォルダになります。加えてdata/を付け足すことでR練習フォルダ内にあるdataフォルダという意味になります。
ファイル名は自由に決められますが今回は元のファイルと同じにしました。拡張子も忘れないようにしましょう。

もしプロジェクトを使っていなければ保存場所はgetwd関数で出てきたフォルダになります。
getwd関数の()には何も入れません。

getwd()


この方法を使う最大のメリットは、次回使うExcelデータはurlの部分を変えるだけでできてしまうことです。毎回右クリックでアドレスを保存 → 保存したファイルを指定したところに移動させて・・・といった手作業必要ありません。こういった作業もRで行っていくことでRにも早く慣れてくると思います。



4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。
スクリーンショット 2019-10-25 14.07.12

今回は握力のデータです。A群とB群を比較します。
ただA1にデータが入っていません。実際にはB2からC62までデータが入っていることを確認します。
スクリーンショット 2019-10-25 14.11.22

次はImport Datasetを選びます。
スクリーンショット 2019-10-25 14.07.18

ポイントは2つです。
①データの名前(変数名)を付ける
何でもいいのですが今回はハルさんのサイトと同じgripにしました。

②読み込む範囲を指定する
今回A1からのデータではないので先程確認したB2からC62を指定します。
B2:C62のように左上と右下を:でつなげます
スクリーンショット 2019-10-25 14.17.12


そして右下にコードが自動的に作られます。Importを押せば完了なのですが、このコードをコピーしスクリプトに貼り付けておけば1年たった後でも同じことができます。EZRでもスクリプトを保存することができないわけではないのですが、再現性(後でしても、他の人がしても同じ事ができる)を保つためにもこういったコードを残しておく習慣をつけるようにしましょう。
スクリーンショット 2019-10-25 14.19.26


コードの一番下にあるView関数を使うことでRStudio内でもデータの確認ができます。このタブを消してもデータに影響はありません。もう1回View関数を使えばまた表示できます。
スクリーンショット 2019-10-25 14.28.00

View関数はEZRで言う表示と同じです(下図はハルさんのサイトより。比べてみてください)



これでデータの取り込みは完了です!



5.データの要約

ハルさんは次にデータの要約をしています。
EZRでのデータの要約と全く同じ機能はないですが、第2章で紹介したtidyverseパッケージのgroup_by関数とsummarize関数が使えます。group_by関数とsummarize関数に関してはこちらで紹介しています。

%>%やgroup_by関数、summarize関数はtidyverseパッケージに含まれていますのでtidyverseパッケージを呼び出します。もしtidyverseパッケージを全く使ったことが無い方はパッケージをインストールします。1度でも使ったことがあれば次の1行は必要ありません。

install.packages("readxl")

実際のコードは以下になります。イメージ図も添付します。

library(tidyverse)
grip %>% group_by(category) %>% summarize(平均 = mean(grip), 標準偏差 = sd(grip), '0%' = quantile(grip, 0), '25%' = quantile(grip, 0.25), '50%' = quantile(grip, 0.5), '75%' = quantile(grip, 0.75), '100%' = quantile(grip, 1), n = n())

スクリーンショット 2019-10-25 20.52.13

スクリーンショット 2019-10-26 7.55.30


これでA群とB群のデータのばらつきを確認することができます。
ちなみにこのコードをコピーして色がついた箇所を変更すれば他の場面でも使えます!

このままでもいいのですが、データ要約は後でグラフ作成に使うのでgrip_summaryという名前をつけます。

grip_summary <- 
grip %>% group_by(category) %>% summarize(平均 = mean(grip), 標準偏差 = sd(grip), '0%' = quantile(grip, 0), '25%' = quantile(grip, 0.25), '50%' = quantile(grip, 0.5), '75%' = quantile(grip, 0.75), '100%' = quantile(grip, 1), n = n())


6.正規性の確認

次に正規性の確認を行います。ハルさんのサイトではヒストグラムを作成しました。
ヒストグラムの作り方はこちらで紹介しています。


ハルさんのヒストグラムは棒が5本だったので同じ形にするようbins = 5とします。
A群とB群の棒を横に並べるときはposition = "dodge"を使います。
ggplot()で行を変える時は %>% ではなく + を使うので注意してください。

ggplot(data = grip) + 
  geom_histogram(aes(x = grip, fill = category), position = "dodge", bins = 5) 

スクリーンショット 2019-10-25 20.55.06



加えてシャピロ・ウィルク検定も紹介されています。シャピロ・ウィルク検定はshapriro.test関数を使います。
ただA群とB群それぞれで行いますのでgrip$gripの列をA群とB群に分ける必要があります。

shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])



データの中で特定の条件だけを抜き出すには[ ]を使います。



ハルさんのサイトのEZRで行う場合と見比べてみてください。
category == "A" と書いてあるところの意味が見えてきます。
ちなみに変数(1つ選択)のgripはgrip$gripの色のついた部分です。

スクリーンショット 2019-10-25 21.13.57


結果は以下のとおりです。
スクリーンショット 2019-10-25 19.36.44

どちらも0.5を超えているので正規分布であるという仮説は棄却されませんでした。
このあたりの解釈はハルさんのサイトをご参照ください。


7.1度に計算するsplit + map関数

shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])

上記のように1つずつ計算する方法もいいのですが群の数だけ繰り返します。プログラミングであるRは繰り返しに強いという特徴があります。


群ごとにデータを分割し、まとめて計算する方法として今回はsplit関数map関数を使います。


grip %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$grip))

スクリーンショット 2019-10-26 22.42.55

まずgripのデータを
split関数を使ってA群とB群の2つのデータに分割し、map(~シャピロウィルク検定)でシャピロウィルク検定を繰り返します。

スクリーンショット 2019-10-26 23.01.43

EZRだと1つ1つ検定を繰り返す必要があります。
Rを活用すると1度に作業が終わるため、繰り返すことでのやり間違えの予防や時間の短縮にも繋がります。


8.等分散性を確認する

先程は正規性を調べましたが、今回は等分散性を調べます。
F検定と言いますがRではvar.test関数を使います。



Rで行うとこうなります。
var.test(目的変数 
~ グループ)

var.test(grip$grip ~ grip$category)

もしくはdata = を使えば$が要らなくなります。

var.test(grip ~ category, data = grip)
スクリーンショット 2019-10-27 5.57.05

p値 > 0.05だったので等分散性は棄却されませんでした。



9.t検定を行う

いままで正規分布かどうか、等分散性かどうかを確認しました。

スクリーンショット 2019-10-27 6.17.29

これでt検定が使えます。t検定はt.test関数を使います。
t検定は2種類の書き方があります。その違いはデータの形にあります。
ハルさんのサイトでEZRでは左の形しかできませんでしたがRならどちらも可能です
ちなみに左をlongデータ(縦に長い)、右をwideデータ(横に広い)といいます。
スクリーンショット 2019-10-27 21.34.00

スクリーンショット 2019-10-27 8.09.41

今回はlongデータなのでこのようになります。

t.test(grip$grip ~ grip$category, var = TRUE)

data = gripを使うとgrip$は外せます。どちらでも好きな方で大丈夫です。

t.test(grip ~ category, var = TRUE, data = grip)

スクリーンショット 2019-10-27 21.42.47
EZRと同じ結果になりました!


10.グラフの作成
EZRでは丁寧にグラフも作ってくれますがRでは自作する必要があります。
EZRでは平均と標準偏差の棒グラフを作成していました。
先程のgrip_summaryに平均と標準偏差を求めていたのでそれを使います。

棒グラフの作り方はここで紹介しています。


①最低限のグラフ(見た目は気にしない)

グラフを作る上で最低限必要な要素としては
棒グラフ:geom_bar(aes(x軸の指定、y軸の指定), stat = "identity")
エラーバー:geom_errobar(aes(x軸の指定, エラーバーの下端, エラーバーの上端))
y軸の名前が「平均」になるので「grip」に変更する

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差)) + 
  labs(y = "grip") 
スクリーンショット 2019-10-27 22.59.56
ただこれでは見るに耐えません・・・



②見栄えを変更
次は以下を修正します。
棒グラフ:周りの線をblack、中の色をgray
エラーバー:幅を補足する(今回は0.1)

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip")
スクリーンショット 2019-10-27 23.00.05
だいぶ見た目が良くなりました。



③EZRのグラフにできるだけ近づける
EZRのグラフに似せるためにもうひと工夫します。
背景を白にする(グラフのテーマをclassicに変える)
文字を大きくする(今回はsizeを15に変更)
棒グラフが浮いているように見えるのを修正する

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip") +
  theme_classic(base_size = 15) +
  scale_y_continuous(expand = c(0,0), limits = c(0,50))
スクリーンショット 2019-10-27 23.00.12
これでEZRにだいぶ似ました。



11.まとめ

かなり長くなりましたが今回はt検定を紹介しました。

最初だったので1つ1つ説明しました。ボリュームが多すぎて慣れないところもあると思いますが、これから何度も出てくるものもありますので少しずつ慣れて貰えればと思います。


12.コードをまとめました
今回のコードを1つにまとめました。
パッケージはlibrary()を1度だけ行えばいいので最初に出しています。

#パッケージの読み込み
library(readxl)
library(tidyverse)

#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/03/demo-t-test.xlsx"
destfile = "data/demo-t-test.xlsx"

download.file(url, destfile)

#データの読み込み
grip <- read_excel("data/demo-t-test.xlsx", 
                   range = "B2:C62")
View(grip)  

#データの要約
grip_summary <- 
  grip %>% 
  group_by(category) %>% 
  summarize(平均 = mean(grip),
              標準偏差 = sd(grip),
              '0%' = quantile(grip, 0),
              '25%' = quantile(grip, 0.25),
              '50%' = quantile(grip, 0.5),
              '75%' = quantile(grip, 0.75),
              '100%' = quantile(grip, 1),
              n = n())
grip_summary

#正規性を調べる
#ヒストグラム
ggplot(data = grip) + 
  geom_histogram(aes(x = grip, fill = category), position = "dodge", bins = 5) 

#シャピロ・ウィルク検定
shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])

grip %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$grip))


#等分散性を確認
var.test(grip ~ category, data = grip)

#t検定
t.test(grip$grip ~ grip$category, var = TRUE)

t.test(grip ~ category, var = TRUE, data = grip)

#グラフ化
ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差)) + 
  labs(y = "grip") 

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip")

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip") +
  theme_classic(base_size = 15) +
  scale_y_continuous(expand = c(0,0), limits = c(0,50))

                


↑このページのトップヘ