タグ:相関係数

前回の記事では相関係数と相関係数の検定を行う方法を紹介しました。


ただ複数の列がある場合1つずつ相関係数を調べるのは大変な作業です。
今回は相関行列について紹介します。


1.使うデータ

今回はこちらのダミーデータを使います。

歩行が自立しているか(0:非自立、1:自立)と各種データが入っています。
スクリーンショット 2020-07-15 5.42.46



性別が男性・女性になっています。

url <- "https://raw.githubusercontent.com/mitti1210/myblog/master/data01.csv"
dat <- read.csv(url)
dat$氏名 <- NULL  #氏名の列を削除


2.GGallyパッケージのggpairs関数

相関係数を手早く確認する方法としてGGallyパッケージggpairs関数があります。
この方法のメリットは相関係数と散布図が同時に見れサクッとわかるです。

library(tidyverse)
library(GGally)
ggpairs(dat)
スクリーンショット 2020-07-15 9.30.36


左下に散布図、右上には相関係数とまとめて表示されます。
数値と数値の場合は散布図、カテゴリーと数値の場合はヒストグラムと箱ひげ図が表示されます。

もしmacで日本語が□□と文字化けしていたらもう1行追加します。

ggpairs(dat)+
  theme_gray(base_family = "HiraKakuPro-W3")
スクリーンショット 2020-07-15 9.30.47



そしてggpairsの便利な機能としてはあるカテゴリーごとに色を付けることができます。
aes_string(colour="カテゴリーの列", alpha=0.5)を追加します。
カテゴリーの列はcharactor型、もしくはfactor型である必要があります(数値型だとダメ)
alphaは色の透過の程度なので0.7あたりでも大丈夫です。
ggpairs(dat,aes_string(colour="性別", alpha=0.5))
スクリーンショット 2020-07-15 9.29.32





3.cor関数とcorrplotパッケージを使う

次にcor関数corrplotパッケージで相関行列を作成します。
この方法のメリットはp値が計算できる、pythonっぽい相関行列のグラフが作れるです。

散布図行列を求めるにはcor関数を使います。

ただ男性・女性のような文字は対応できないので0,1に置き換えます。
dat$性別 <- ifelse(dat$性別 == "男性", 0, 1)

c <- cor(dat)
c
スクリーンショット 2020-07-15 9.42.04


四捨五入する時はround関数を使います。
round(c,2)
スクリーンショット 2020-07-15 9.42.38


もしスピアマンの相関係数を求めるのであればmethod="spearman"を追加します。
c <- cor(dat, method = "spearman")

ただ数値の羅列は中々見にくいものです。そこでcorrplotパッケージのcorrplot関数を使いグラフにします。
corrplot(c, method = "color", addCoef.col = TRUE)
method="color"はグラフの見た目、addCoef.col = TRUEはグラフに数値を入れるオプションなのでそのままコピペで大丈夫です。変更するのはcのところで、ここには先程もとめた相関行列を指定します。

c <- cor(dat, method = "spearman")
cの部分です。もちろん違う名前でも大丈夫です。

もしmacで日本語文字化けの問題があれば1行追加します。
par()関数はフォントの指定ができます。

library(corrplot)
par(family="HiraKakuPro-W3") #macで日本語が文字化けするときに追加。ここでフォントの指定ができる
corrplot(c, method = "color", addCoef.col = TRUE)
スクリーンショット 2020-07-15 9.47.46
これでかなり見やすくなりました。pythonっぽいです。


検定をしてp値を求める

p値を求めるのであればcorrplotパッケージのcor.mtest()関数を使います。
cor.mtestはp値、95%信頼区間の下限、上限の3つが表示されます。スピアマンの相関係数の場合はmethod = "spearman"を追加するだけなのですが、同値(タイ)があると95%信頼区間が出ないようです。

p <- cor.mtest(dat)
p
スクリーンショット 2020-07-15 7.20.20

p$p:p値
p$lowCI:95%信頼区間の下限
p$uppCI:95%信頼区間の上限

先程の相関行列にp<0.05かそうでないかを出すこともできます。
p.mat:p値の行列(ここではp$p。上の図をよく見ると$pと書いてあります。)
sig.level = ◯◯(0.05 にしたり、0.2に設定することもあります)

corrplot(c, method = "color", addCoef.col = TRUE, p.mat = p$p, sig.level = 0.05)
スクリーンショット 2020-07-15 10.33.07

これで有意差があるものがどれか一目瞭然です。


4.corrrパッケージを使う

もう一つcorrrパッケージを紹介します。
この方法のメリットは相関が高い組み合わせ順が知りたい!というときに便利です。

相関行列を出す時はcor関数でなくcorrelate関数を使います。
使い方はcor関数と同じです。cor→correlateに変わるだけです。
スピアマンの相関係数にしたい時はmethod="spearman"を追加すればOKです。

c <- correlate(dat, method = "spearman")
c
スクリーンショット 2020-07-15 10.41.13


マイナスの値が赤字になっただけでここまでは今までと違いはありませんが、corrrの便利な所はここからになります。

まずcorrr関数は第2章で扱ったtidyverseと同じ%>%が使えます。

右上と左下は同じものなので片方を削除することができます。削除するにはshave関数を使います。
c %>% shave()
スクリーンショット 2020-07-15 10.45.16



これで左下だけになりました。

次に行列形式ではなくlong形式に変換します。streach関数を使います。
streach(na.rm=TRUE)とするとNAとなっているいらない列を消すことができます。

c %>% shave() %>% stretch(na.rm = TRUE)
スクリーンショット 2020-07-15 10.55.02



次に並べ替えます。arrange関数を使います。何も指定しなかければ相関係数が高い順から並びます。
c %>% shave() %>% stretch(na.rm = TRUE) %>% arrange()
スクリーンショット 2020-07-15 10.55.14
スクリーンショット 2020-07-15 10.55.31


ただ注意しないといけないのが相関係数は-1〜1の値を取ります。
相関がないのは0付近で、-1は1と同様に強い相関があります。
なので相関が強い順に並べるには相関係数の絶対値で並び替える事が必要になります。
相関係数の列名はrになっています。abs関数が絶対値を求める関数なのでabs(r)となります。

c %>% shave() %>% stretch(na.rm = TRUE) %>% arrange(abs(r))
スクリーンショット 2020-07-15 10.55.31


そしてこれだと相関係数が0に近い方から並んでしまったので順番を逆にします。
順番を逆にするにはdesc(並べ替えたい列)を使います。
並べ替えたい列はabs(r)でした。desc(abs(r))とします。
()が多くなってエラーが出やすくなるので注意してください。

c %>% shave() %>% stretch(na.rm = TRUE) %>% arrange(desc(abs(r)))
スクリーンショット 2020-07-15 10.55.45

相関行列を1個ずつ見てると見落としがちですが、これなら見落とすことはありません。


5.相関係数の有意差がないってどういう意味?

スクリーンショット 2020-07-15 10.33.07

ところで×がついた項目(p値が有意水準に満たさなかった)というのはどういう意味でしょうか?
これは相関係数が低いから有意差が出ないわけではありません。

相関係数の検定は「相関係数が0である」と仮説を立てます。
そしてデータから信頼区間を求め、信頼区間に0が含まれているかを調べます。
その時もし信頼区間に0が含まれていたら有意差なしとなります。

例えば上の図でいうと性別×BBSを見ると相関係数が-0.13となっています。
ただ95%信頼区間を見ると-0.27〜0.007となっています。
つまり今回は計算上-0.13となったけど実は信頼区間にマイナスの値も0もプラスの値も入っていて、符号が変わる可能性がある→正の相関があるとも負の相関があるとも言えないよね。といったニュアンスになります。もし95%信頼区間が-0.27〜-0.001であれば符号が変わらないため有意差あり(p<0.05)となります。ただ相関係数0.13というのはほとんど相関がないという意味ではありますが...

つまり相関係数の検定のp値は出した相関係数の符号が変わる可能性が高いのか低いのか?を見る検定と考え、p値が低いから相関係数が強いんだという意味ではないことに注意が必要です。相関の強さはあくまでもp値ではなく相関係数の値で評価します。



6.まとめ

今回は相関行列を紹介しました。

相関行列を出すだけならEZRでもできますが、検定やグラフの作成はEZRだけではできません。

他にもいろいろな方法はあるのですが、今回は3パターン紹介しました。

ただGGallyやcorrrはもっといろいろなことができます。

もっと詳しく知りたい方は以下のサイトがおすすめです!








第4章は統計を扱います。


今回も「シロート統計学」のハルさんとコラボレーションすることとなりました。


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。


 


第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回は相関係数(ピアソン・スピアマン)を紹介します



まず相関係数についてはハルさんのサイトをご参照ください。



また1.準備〜4.データの読み込みまでは【4-1】Rでt検定を行う方法と全く同じ流れになります。
もし1〜4まででわからない部分があれば確認してみてください。

 

1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。

 

ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。
スクリーンショット 2019-10-20 7.54.14


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。
ここでは【4-15】相関係数.Rとしておきます。

スクリーンショット 2020-07-14 23.41.44


3.データのダウンロード


今回もハルさんのサイトのデータを使わせていただきます。

デモデータ(pearsonの相関係数)

この章ではRを使ってダウンロードしています。


download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)
urlはデモデータで右クリック → リンクのアドレスをコピー
destfileは保存場所と保存のファイル名を指定します。


実際のコードは以下になります。
前回のコードのURL(" "の中)とdestfileのdata/以降を変更するだけでOKです。
#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/06/demo-pearson.xlsx"
destfile = "data/demo-pearson.xlsx"
download.file(url, destfile)
スクリーンショット 2019-11-23 22.14.17


dataフォルダにダウンロードできたことを確認します。


4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。

スクリーンショット 2019-12-08 20.31.39


データが入っているセルを確認します。
B2からC32までデータが入っています(B2:C32と表記)
スクリーンショット 2020-07-14 23.51.28




次にImport Datasetでデータを取り込みます。
スクリーンショット 2019-12-08 20.31.39



Import画面ではName, Sheet,Rangeを指定します。

Name:ハルさんのサイトと同じでborgとします(大文字・小文字は別物とされます)
Sheet:このExcelは1つしかデータがないのでDefaultのままでOK
Range:先ほど確認したB2:D32(実は今回のように表以外に余計なものがなければ空欄でもOK)

スクリーンショット 2020-07-14 23.53.34



Importボタンを押す前に右にあるコードをコピーしスクリプトファイルに貼り付けることも忘れずに行います。
library(readxl)
borg <- read_excel("data/demo-pearson.xlsx", 
    range = "B2:C32")
View(borg)

データが正しく入っていることを確認します。
スクリーンショット 2020-07-14 23.54.38



これでデータの取り込みは完成です。

5.散布図で確認

相関係数を見るときはいきなり相関係数を求めるのではなく、先に散布図を書くほうが事故が減ります。
【3-3】Rのggplot2で散布図を作るgeom_point関数で散布図を書く方法を紹介しています。
散布図を書くのはgeom_point関数、回帰直線を書くのはgeom_smooth関数です。
geom_smooth関数では(method="lm")を必ず付ける必要があります。
これは直線ですよという意味です。直線以外にも色々あるんです。
ちなみに色を付けるときはcolor=を、se=FALSEは今回はあってもなくても構いません。

library(tidyverse)
ggplot(data=borg,aes(x=`6MWD`,y=VC))+
  geom_point()+
  geom_smooth(method = "lm", color="red", se=FALSE)
注意!
列名や変数名の最初の文字が数字の時(今回でいうと6MWD)の場合、x=6MWDのようにするとエラーが出ます。こういった場合は` `(shiftキーを押しながら@マークを押す)でエラーを回避できます。でもなるべくなら最初の文字は数字じゃない方が後々便利です。


スクリーンショット 2020-07-15 0.06.04


他にも「もっとかんたんに散布図だけみたい」というときはplot関数があります。

plot(borg$`6MWD`, borg$VC)
ここでも`6MWD`と` `を忘れないようにします。
スクリーンショット 2020-07-15 0.05.51

こうみると6MWDとVCは直線上の関係にあるのが見て取れます。
こういった場合はピアソンの相関係数が使えます。
逆に外れ値が多いデータや直線でないデータでは相関係数は使えなくなります。

外れ値がない場合
スクリーンショット 2020-07-15 0.34.07

外れ値が5個あった場合
スクリーンショット 2020-07-15 0.33.58


そして二次関数のようなデータはうまく行きません。他にも「10代〜30代は良好、40〜50代は不良、60代以降は良好」みたいなデータもうまくいきません。
(相関係数は「一方が上がる」するともう一方が「上がるor下がる」ということだけで、2時間数のように途中で傾向が変わるデータには対処できない)
スクリーンショット 2020-07-15 0.36.06
上記のような例は相関係数を出すだけではわかりません。散布図で確認して初めて分かることなので、相関係数は「まずは散布図!」とイメージしておいてください。


6.相関係数の検定の実施

相関係数の検定は1行で終わりますが主に2種類あることを知る必要があります。

パラメトリック:ピアソンの相関係数
ノンパラメトリック、外れ値が多い:スピアマンの相関係数



どちらも相関係数の検定はcor.test(1つ目の列, 2つ目の列)です。

cor.test(borg$`6MWD`,borg$VC)
スクリーンショット 2020-07-15 1.02.00

もしスピアマンの相関係数を求めるときはmethod = "spearman"を追記します。
cor.test(borg$`6MWD`,borg$VC, method = "spearman")
スクリーンショット 2020-07-15 4.00.34


【4-2】RでMann-Whitney U 検定を行う方法でも紹介しましたが、ノンパラメトリックの手法では列の中に同じ数値があると警告がでます。

スクリーンショット 2020-07-15 4.07.07
このままでも大丈夫ではありますが(EZRも同じ字問題が起こっているが警告が出ないようにしている)、もし「警告をどうにかしたい!」とあれば、coinパッケージのspearman_test関数を使うという方法もあります(そこまでしている人はいるのでしょうか?)

spearman_test(1つ目の列 ~ 2つ目の列, data=データ)という書き方になります。

library(coin)
coin::spearman_test(`6MWD`~VC, data=borg)

cor(borg$`6MWD`,borg$VC, method = "spearman")
スクリーンショット 2020-07-15 4.17.43


ただspearman_test関数は検定はしてくれますが、相関係数自体を出してくれません。
そのためcor関数で相関係数を求める必要があります。


7.まとめ

今回は相関係数の求め方を紹介しました。

今回紹介していませんが、ハルさんのサイトにもあるように相関関係と因果関係は別物という考えはとても大切です。

そして、相関係数を出す前に散布図を作るという習慣をつけることが大切です。

散布図を出した上で直線的な関係性がありそうであれば相関係数を求めてください。

↑このページのトップヘ