2019年10月

第4章は統計を扱います。


今回「シロート統計学」のハルさんとコラボレーションすることとなりました。


ハルさん、ありがとうございます!


シロート統計学はEZRを使った統計分析をわかりやすく解説されています。




第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。


今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!


今回はt検定を紹介します



まずt検定についてはハルさんのサイトをご参照ください。

 



1.準備

第4章は毎回ExcelデータをダウンロードしてRを使うのでプロジェクトで管理して行うことを勧めています。



ここではR練習というプロジェクトを作り、Excelファイルを入れるためのdataフォルダを作っています。
これを前提に次から進めていきます。


2.スクリプトファイルの作成

次にRのコードを書くためのスクリプトファイルを作ります。

スクリーンショット 2019-10-25 12.15.42

完成です。
スクリーンショット 2019-10-25 12.18.51


3.データのダウンロード

今回はハルさんのサイトのデータを使わせていただきます。

デモデータ(t検定)

これをダウンロードしてdataフォルダに入れればいいのですが実はRでできてしまいます
download.file関数を使います。" "を忘れないようにしてください。

url <- "https://haru-reha.com/wp-content/uploads/2018/03/demo-t-test.xlsx"
destfile = "data/demo-t-test.xlsx"

download.file(url, destfile)

以下説明します。

download.file(url = “ファイルのURL”,
        destfile = “保存したい場所/ファイル名”)


urlはデモデータで右クリック → リンクのアドレスをコピー

destfileは保存場所と保存のファイル名を指定します。
保存場所は今回プロジェクトを使っているのでR練習フォルダになります。加えてdata/を付け足すことでR練習フォルダ内にあるdataフォルダという意味になります。
ファイル名は自由に決められますが今回は元のファイルと同じにしました。拡張子も忘れないようにしましょう。

もしプロジェクトを使っていなければ保存場所はgetwd関数で出てきたフォルダになります。
getwd関数の()には何も入れません。

getwd()


この方法を使う最大のメリットは、次回使うExcelデータはurlの部分を変えるだけでできてしまうことです。毎回右クリックでアドレスを保存 → 保存したファイルを指定したところに移動させて・・・といった手作業必要ありません。こういった作業もRで行っていくことでRにも早く慣れてくると思います。



4.データの読み込み

データを読み込みます。
今回は【4-0】第4章を進めていく上での準備で行った方法で進めます。

View Fileでデータを確認します。
スクリーンショット 2019-10-25 14.07.12

今回は握力のデータです。A群とB群を比較します。
ただA1にデータが入っていません。実際にはB2からC62までデータが入っていることを確認します。
スクリーンショット 2019-10-25 14.11.22

次はImport Datasetを選びます。
スクリーンショット 2019-10-25 14.07.18

ポイントは2つです。
①データの名前(変数名)を付ける
何でもいいのですが今回はハルさんのサイトと同じgripにしました。

②読み込む範囲を指定する
今回A1からのデータではないので先程確認したB2からC62を指定します。
B2:C62のように左上と右下を:でつなげます
スクリーンショット 2019-10-25 14.17.12


そして右下にコードが自動的に作られます。Importを押せば完了なのですが、このコードをコピーしスクリプトに貼り付けておけば1年たった後でも同じことができます。EZRでもスクリプトを保存することができないわけではないのですが、再現性(後でしても、他の人がしても同じ事ができる)を保つためにもこういったコードを残しておく習慣をつけるようにしましょう。
スクリーンショット 2019-10-25 14.19.26


コードの一番下にあるView関数を使うことでRStudio内でもデータの確認ができます。このタブを消してもデータに影響はありません。もう1回View関数を使えばまた表示できます。
スクリーンショット 2019-10-25 14.28.00

View関数はEZRで言う表示と同じです(下図はハルさんのサイトより。比べてみてください)



これでデータの取り込みは完了です!



5.データの要約

ハルさんは次にデータの要約をしています。
EZRでのデータの要約と全く同じ機能はないですが、第2章で紹介したtidyverseパッケージのgroup_by関数とsummarize関数が使えます。group_by関数とsummarize関数に関してはこちらで紹介しています。

%>%やgroup_by関数、summarize関数はtidyverseパッケージに含まれていますのでtidyverseパッケージを呼び出します。もしtidyverseパッケージを全く使ったことが無い方はパッケージをインストールします。1度でも使ったことがあれば次の1行は必要ありません。

install.packages("readxl")

実際のコードは以下になります。イメージ図も添付します。

library(tidyverse)
grip %>% group_by(category) %>% summarize(平均 = mean(grip), 標準偏差 = sd(grip), '0%' = quantile(grip, 0), '25%' = quantile(grip, 0.25), '50%' = quantile(grip, 0.5), '75%' = quantile(grip, 0.75), '100%' = quantile(grip, 1), n = n())

スクリーンショット 2019-10-25 20.52.13

スクリーンショット 2019-10-26 7.55.30


これでA群とB群のデータのばらつきを確認することができます。
ちなみにこのコードをコピーして色がついた箇所を変更すれば他の場面でも使えます!

このままでもいいのですが、データ要約は後でグラフ作成に使うのでgrip_summaryという名前をつけます。

grip_summary <- 
grip %>% group_by(category) %>% summarize(平均 = mean(grip), 標準偏差 = sd(grip), '0%' = quantile(grip, 0), '25%' = quantile(grip, 0.25), '50%' = quantile(grip, 0.5), '75%' = quantile(grip, 0.75), '100%' = quantile(grip, 1), n = n())


6.正規性の確認

次に正規性の確認を行います。ハルさんのサイトではヒストグラムを作成しました。
ヒストグラムの作り方はこちらで紹介しています。


ハルさんのヒストグラムは棒が5本だったので同じ形にするようbins = 5とします。
A群とB群の棒を横に並べるときはposition = "dodge"を使います。
ggplot()で行を変える時は %>% ではなく + を使うので注意してください。

ggplot(data = grip) + 
  geom_histogram(aes(x = grip, fill = category), position = "dodge", bins = 5) 

スクリーンショット 2019-10-25 20.55.06



加えてシャピロ・ウィルク検定も紹介されています。シャピロ・ウィルク検定はshapriro.test関数を使います。
ただA群とB群それぞれで行いますのでgrip$gripの列をA群とB群に分ける必要があります。

shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])



データの中で特定の条件だけを抜き出すには[ ]を使います。



ハルさんのサイトのEZRで行う場合と見比べてみてください。
category == "A" と書いてあるところの意味が見えてきます。
ちなみに変数(1つ選択)のgripはgrip$gripの色のついた部分です。

スクリーンショット 2019-10-25 21.13.57


結果は以下のとおりです。
スクリーンショット 2019-10-25 19.36.44

どちらも0.5を超えているので正規分布であるという仮説は棄却されませんでした。
このあたりの解釈はハルさんのサイトをご参照ください。


7.1度に計算するsplit + map関数

shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])

上記のように1つずつ計算する方法もいいのですが群の数だけ繰り返します。プログラミングであるRは繰り返しに強いという特徴があります。


群ごとにデータを分割し、まとめて計算する方法として今回はsplit関数map関数を使います。


grip %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$grip))

スクリーンショット 2019-10-26 22.42.55

まずgripのデータを
split関数を使ってA群とB群の2つのデータに分割し、map(~シャピロウィルク検定)でシャピロウィルク検定を繰り返します。

スクリーンショット 2019-10-26 23.01.43

EZRだと1つ1つ検定を繰り返す必要があります。
Rを活用すると1度に作業が終わるため、繰り返すことでのやり間違えの予防や時間の短縮にも繋がります。


8.等分散性を確認する

先程は正規性を調べましたが、今回は等分散性を調べます。
F検定と言いますがRではvar.test関数を使います。



Rで行うとこうなります。
var.test(目的変数 
~ グループ)

var.test(grip$grip ~ grip$category)

もしくはdata = を使えば$が要らなくなります。

var.test(grip ~ category, data = grip)
スクリーンショット 2019-10-27 5.57.05

p値 > 0.05だったので等分散性は棄却されませんでした。



9.t検定を行う

いままで正規分布かどうか、等分散性かどうかを確認しました。

スクリーンショット 2019-10-27 6.17.29

これでt検定が使えます。t検定はt.test関数を使います。
t検定は2種類の書き方があります。その違いはデータの形にあります。
ハルさんのサイトでEZRでは左の形しかできませんでしたがRならどちらも可能です
ちなみに左をlongデータ(縦に長い)、右をwideデータ(横に広い)といいます。
スクリーンショット 2019-10-27 21.34.00

スクリーンショット 2019-10-27 8.09.41

今回はlongデータなのでこのようになります。

t.test(grip$grip ~ grip$category, var = TRUE)

data = gripを使うとgrip$は外せます。どちらでも好きな方で大丈夫です。

t.test(grip ~ category, var = TRUE, data = grip)

スクリーンショット 2019-10-27 21.42.47
EZRと同じ結果になりました!


10.グラフの作成
EZRでは丁寧にグラフも作ってくれますがRでは自作する必要があります。
EZRでは平均と標準偏差の棒グラフを作成していました。
先程のgrip_summaryに平均と標準偏差を求めていたのでそれを使います。

棒グラフの作り方はここで紹介しています。


①最低限のグラフ(見た目は気にしない)

グラフを作る上で最低限必要な要素としては
棒グラフ:geom_bar(aes(x軸の指定、y軸の指定), stat = "identity")
エラーバー:geom_errobar(aes(x軸の指定, エラーバーの下端, エラーバーの上端))
y軸の名前が「平均」になるので「grip」に変更する

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差)) + 
  labs(y = "grip") 
スクリーンショット 2019-10-27 22.59.56
ただこれでは見るに耐えません・・・



②見栄えを変更
次は以下を修正します。
棒グラフ:周りの線をblack、中の色をgray
エラーバー:幅を補足する(今回は0.1)

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip")
スクリーンショット 2019-10-27 23.00.05
だいぶ見た目が良くなりました。



③EZRのグラフにできるだけ近づける
EZRのグラフに似せるためにもうひと工夫します。
背景を白にする(グラフのテーマをclassicに変える)
文字を大きくする(今回はsizeを15に変更)
棒グラフが浮いているように見えるのを修正する

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip") +
  theme_classic(base_size = 15) +
  scale_y_continuous(expand = c(0,0), limits = c(0,50))
スクリーンショット 2019-10-27 23.00.12
これでEZRにだいぶ似ました。



11.まとめ

かなり長くなりましたが今回はt検定を紹介しました。

最初だったので1つ1つ説明しました。ボリュームが多すぎて慣れないところもあると思いますが、これから何度も出てくるものもありますので少しずつ慣れて貰えればと思います。


12.コードをまとめました
今回のコードを1つにまとめました。
パッケージはlibrary()を1度だけ行えばいいので最初に出しています。

#パッケージの読み込み
library(readxl)
library(tidyverse)

#データのダウンロード
url <- "https://haru-reha.com/wp-content/uploads/2018/03/demo-t-test.xlsx"
destfile = "data/demo-t-test.xlsx"

download.file(url, destfile)

#データの読み込み
grip <- read_excel("data/demo-t-test.xlsx", 
                   range = "B2:C62")
View(grip)  

#データの要約
grip_summary <- 
  grip %>% 
  group_by(category) %>% 
  summarize(平均 = mean(grip),
              標準偏差 = sd(grip),
              '0%' = quantile(grip, 0),
              '25%' = quantile(grip, 0.25),
              '50%' = quantile(grip, 0.5),
              '75%' = quantile(grip, 0.75),
              '100%' = quantile(grip, 1),
              n = n())
grip_summary

#正規性を調べる
#ヒストグラム
ggplot(data = grip) + 
  geom_histogram(aes(x = grip, fill = category), position = "dodge", bins = 5) 

#シャピロ・ウィルク検定
shapiro.test(grip$grip[category == "A"])
shapiro.test(grip$grip[category == "B"])

grip %>% 
  split(.$category) %>% 
  map(~shapiro.test(.$grip))


#等分散性を確認
var.test(grip ~ category, data = grip)

#t検定
t.test(grip$grip ~ grip$category, var = TRUE)

t.test(grip ~ category, var = TRUE, data = grip)

#グラフ化
ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差)) + 
  labs(y = "grip") 

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip")

ggplot(data = grip_summary)+
  geom_bar(aes(x = category, y = 平均), color = "black", fill = "gray", stat = "identity") +
  geom_errorbar(aes(x = category, ymin = 平均 - 標準偏差, ymax = 平均 + 標準偏差), width = 0.1) + 
  labs(y = "grip") +
  theme_classic(base_size = 15) +
  scale_y_continuous(expand = c(0,0), limits = c(0,50))

                


第4章は統計を扱います。

今回「シロート統計学」のハルさんとコラボレーションすることとなりました。

ハルさん、ありがとうございます!

シロート統計学はEZRを使った統計分析をわかりやすく解説されています。



第4章はシロート統計学で使われていたEZRをRで行うとどうなるのか?といった視点で進めていきます。

今回使うデータもハルさんのサイトと同じものを使わせでいただく事になりました。それぞれ見比べることで参考にしてみてください!



今回は4章を進めるにあたって抑えておきたいRの基本的な操作について復習します。

1.プロジェクトを作る

第4章では色々なデータを扱うため、フォルダやRのファイルが煩雑になりやすいです。そこで今回はプロジェクトを使って管理します。

RStudioでプロジェクトを作成する方法は第1章で紹介しています。




今回は「R練習」というプロジェクトを作りました。スクリーンショット 2019-10-20 7.54.14


更にデータを入れるフォルダを作ります。分析に使うExcelファイルはデスクトップやマイドキュメントに置かずにここに置くようにします!
スクリーンショット 2019-10-20 23.07.53

そしてRのコードを書くスクリプトファイルを作ります。
今回は【4-1】で使うためのスクリプトファイルを作成しました。
スクリーンショット 2019-10-20 23.12.27

これで完成です!
スクリーンショット 2019-10-20 7.57.37




2.Excelのデータを読み込む

Excelを読み込む方法はいくつかありますが、ここではコードを書かない方法を紹介します。


まずデータが入ってるdataフォルダに進みRStudioのfilesタブからImport DatasetでExcelファイルをRで読み込みます。


スクリーンショット 2019-10-23 8.08.00

View Fileではエクセルファイルを直接開くことができます
(エクスプローラやFinderを使わなくていいので便利!)

ここではImport Datasetを選びます。

スクリーンショット 2019-10-23 8.11.09

Name:Rで使うときのデータの名前(自由に決められる)
sheet:Excelに複数タブあればどれを使うか指定できる
Range:データの読み込む範囲を指定できる

主には上記3つで読み込む範囲を指定します。
もし1枚目のタブでデータの読み込む範囲の左上がA1だったらNameの指定だけでも大丈夫です。

そしてこの方法の良いところは右にコードを自動で書いてくれることです。これを忘れずにスクリプトにコピーします。

そうすることで2回目以降は1秒もかからずに行えるのでかなりの時短になります!




まとめ

今後色々な検定やデモデータを使うことになります。EZRを使うとあまり意識されない部分ですが、プロジェクトファイルを作ることでデータの管理やスクリプトファイルの管理が進めやすくなります。

次回はt検定を紹介します。





どんな分野に関わらずデータ分析に興味があるけどどうしたらいいか全然わからないという方向けの無料講座が開設されました。実際に受講してみたので、どんな内容か?どんな人向けなのか?を紹介しましす。



gacco

gaffoとは大学教授をはじめとした一流の講師陣による本格的な講義を、誰でも無料で受けられるウェブサービスです。
 
gaccoはMOOCというオンラインで講義や課題を受けられるサービスの1つです。
今回紹介する講座の提供元は総務省統計局です。この講座を登録・受講したからといって「続きはこちら」などと言って高額な有料講座を勧められることもありません。


今回gaccoにデータ分析未経験者向けの口座が開講されました。


社会人のためのデータサイエンス入門
社会人のためのデータサイエンス演習
スクリーンショット 2019-10-13 19.28.17



今回社会人のためのデータサイエンス入門が開講されたことに併せ、2019年5月14日に開講された社会人のためのデータサイエンス演習が再び受講できるようになりました。



講座内容

「入門」ではデータ分析の基本的な言葉やデータの見方を紹介しているのに対し、「演習」では実際のExcelのデータを使ってデータ分析の基本を学ぶことができます。

社会人のためのデータサイエンス入門
今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。

この講座は4週間のコースになります。

第1週:統計データの活用

第2週:統計学の基礎

第3週:データの見方

第4週:公的データの使い方とコースのまとめ



社会人のためのデータサイエンス演習

総務省統計局が提供する講座、ビジネスの現場で求められているデータサイエンスをわかりやすく解説します。

今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法を身につける。

この講座は5週のコースになります。

第1週:データサイエンスとは

第2週:分析の概念と事例

第3週:分析の具体的手法

第4週:ビジネスにおける予測と分析結果の報告

第5週:ビジネスでデータサイエンスを実現するために



必要なこと

Excelを使います。



どうやって勉強するの?

どちらの講座も2つのパートからなっています。

動画による講義

各週に5〜10個程度のyoutubeの動画で学びます。
それぞれの動画は10分前後なのに加えyoutubeなので再生速度を上げることもできるので通勤時間などすきま時間でも勉強ができます。

課題

各週の最後に課題があります。

課題は今の所全て選択形式です。内容としては講義動画を見れば全て解答できるレベルになっています。

加えてExcelの実際のデータを使った課題でもアドインツールやピボットテーブルを使うことで関数を使った計算などを必要としないので1問1問の時間もさほどかかりません。


教材

動画があるので無くても受講可能ですが、もし紙媒体でも欲しいという方がいればスタディーノートがAmazonで発売されています。






何が学べるか?

基本的な統計量
「平均値に騙されない」という内容で平均値・中央値・最頻値の紹介や分布によってどの値を使えばいいのかを紹介しています。

表・グラフの使い方

どういった場面にどんなグラフを使えばいいのか?といった紹介やExcelを使ったグラフの作成方法について紹介しています。

表はピボットテーブルを使ったクロス集計表、グラフは棒グラフや折れ線グラフ・散布図が紹介されています。またこういったグラフはダメ!といった注意点も紹介されています。

相関と因果関係、単回帰直線

データから散布図を作り相関係数や単回帰直線を作成します。
また相関関係と因果関係の用語の説明と相関関係と因果関係は違うことを丁寧に紹介しています。

Excelで単回帰直線を作り予測をするといった流れも紹介されていますが、重回帰やロジスティック回帰などは今回の講義の範囲外となっています。

時系列分析

時系列データの基本的な見方(傾向・循環変動 + 季節変動 + 不規則変動に分けるなど)やExcelを使った分解方法などについて紹介があります。


データの報告の仕方

こういった内容を講座で見たことがなかったのですが個人的に参考になったのが「演習」にあった分析結果の報告の仕方でした。

こういったところに気をつけないと、データは正しくても誤って解釈して報告する恐れがありますよ!といったところに時間を割いて説明されています。

それだけでなく悪意のあるデータの見せ方を見抜く力がつくと感じました。



公的データの使い方

公的統計データの入手方法について紹介があります。



実際に受講して感じたこと








ツイートでも紹介しましたがデータ分析未経験な方こそ向いていると感じました。既に研究をしていたり統計学を勉強している方には講義動画を見なくても課題を全問正解できるような内容かもしれません。

そもそも統計学が好きな人なんてマイノリティで、数学や統計学の用語はわかりにくいものが多いです。

講義では数式とかExcelの関数を使うことが無く、数学や統計学の話に寄りすぎていないので数学・統計学とかよくわからない、Excelの操作がよくわからないという方でもとっつきやすい構成になっていると感じました。

今回の内容がわかればデータに関するリテラシーは確実に上がると思いますし、個人的にはこの内容を押さえてくれてたら相談されたとしてもすごく話がしやすい!と感じました。

・データ分析何もわからんという状態をなんとかしたい
・今までしたこと無いけどデータ分析が必要になった
・統計の本とか読んでもわからん(そもそも「読む」なんて選択しがない)
・Excelでの分析は職場の報告書を使っているだけで、新たに分析しようとなっても使い方がわからない

上記のような方は今回の受講は何かのきっかけになるかもと感じました。


講座のスケジュールについて

どちらの講義も期限があります。


社会人のためのデータサイエンス入門

スクリーンショット 2019-10-14 1.42.28

Week1は動画はすきま時間でも見れる分量で、課題も講義を見れば確実に正解できる内容で5問しかない(計算もExcelも必要ない)のでその気になれば1日でも何とかなるかもしれません。

すべての課題を締切日までにパスできれば修了証がもらえます。



社会人のためのデータサイエンス演習

こちらは過去の授業のアーカイブなので5週分の全講義がアップされています。

開講日:2019年10月8日(火)15時
閉講日:2019年12月17日(火)23時59分

自分のペースで勉強できるのもgaccoのいいところです。




まとめ

今回は社会人のためのデータサイエンス入門・演習を紹介しました。
データとか苦手という方がとっつきやすい講座ですので、興味があれば期限もありますので受講をおすすめします。







第3章ではggplot2を使ったグラフの作り方について説明してきました。

【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数

【3-5】Rのggplot2で密度曲線を作るgeom_density関数

【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数

【3-7】棒グラフの基本とRのggplot2で棒グラフを作るgeom_bar関数

【3-8】ggplot2で折れ線グラフを作るgeom_line関数

【3-9】ggplot2でヒートマップを作るgeom_tile関数

【3-10】Rのggplot2でグループ毎にグラフを作りまとめて表示するfacet_wrap関数

【3-11】Rのggplot2で作った複数のグラフを1つにまとめるgridExtraパッケージ


今まで基本的なグラフの作り方について紹介しましたが、ggplot2は他にも様々なな調整やができます。


今回はグラフを作るときに参考になるサイトを紹介します。


質・量共にこのサイトより充実しているものばかりですが、ある程度慣なれていないと読み解けない箇所もあります。(初心者に向けた)説明の細かさはこのサイトが1番だと思いますので、困ったらこのサイトで確認してください。



チートシート
チートシートとは直訳するとカンニングペーパーという意味で、スライド1〜2枚でその機能を確認できる便利シートになります。基本的な使い方でこまればまずはチートシートを確認しています。

Rにもいろいろなチートシートがあり、ggplot2のチートシートもあります。
ggplot2のチートシートはRStudioのヘルプ→Cheetsheetsにあります(英語版)。

スクリーンショット 2019-10-08 21.44.51

また日本語版もありますのでダウンロードしてお使いください。



書籍

RユーザのためのRStudio[実践]入門
−tidyverseによるモダンな分析フローの世界

松村 優哉 (著), 湯谷 啓明 (著), 紀ノ定 保礼 (著), 前田 和寛 (著)

通称「宇宙本」
この本は初めてRを勉強する方に最初に進めている本です。
Rの基本的な操作から第2章で行ったデータハンドリング、第3章で行ったggplot2によるグラフ作成も紹介されています。他にもウェブスクレイピングやレポートの作成などRを使ってデータ分析を行いたい方にはピッタリはまると思います。


Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

この本ではggplot2の細かい使い方が紹介されている辞書的な1冊です。
ただ2013年の本なのでRやggplotのバージョンの問題で上手く動かないものがあるというコメントもあります。
実はこの本の第2版がオンラインで無料で読むことができます(英語)。



サイト

グラフ描画ggplot2の辞書的まとめ20のコード

ggplot2による可視化入門


biostatistics

これらのサイトはggplot2の基本的な使い方や代表的なグラフ、オプションの説明があります。
まだ慣れない時期はこれらのサイトを見比べながら少しずつイメージを掴むようにしてました。


From Data to Viz
スクリーンショット 2019-10-08 22.59.39



海外のサイトですが用途を選べばどのグラフを使えばいいか、そのコードサンプルを表示してくれます。そもそもどんなグラフを使えばいいか分からない場合は参考になります。




R Graphics Cookbook, 2nd edition
先程の「Rグラフィックスクックブック」の第2版です。
英語版では書籍がありますが、オンライ版は無料となっています。
ggplot2の辞書的な使い方ができますので、困ったことがあるとよくお世話になっています。
英語ではありますが、第3章を一通り試す+google翻訳でも参考になる部分は大きいと思っています。

Data Visualization
こちらも英語版ではありますが、Rを使ったグラフ作成について考え方から実際のコードまで紹介されています。中上級変ではありますが勉強になります。

Introduction to Data Science
私がRを勉強するのに利用したMOOC(Edx)のテキストです。英語ですが無料で読めます。
ggplot2に関しても詳しい説明があります。
こちらではデータ視覚化の原則(これだけは絶対にするな集)もあるので一読を進めます!



r-wakalang
Rに関するどんな質問でも気軽に相談できるslackになります。
Rは実はコミュニティーが平和で、初心者的な質問でも誰かがわかりやすく回答してくれる非常に珍しい(貴重な!)場になっています。
ggplot2に関してのスレッドもあります。


まとめ
今回はRのggplot2を使うときに参考になる書籍やサイトを紹介しました。
これからも参考になる情報があれば更新したいと思います。

↑このページのトップヘ