2019年10月

どんな分野に関わらずデータ分析に興味があるけどどうしたらいいか全然わからないという方向けの無料講座が開設されました。実際に受講してみたので、どんな内容か?どんな人向けなのか?を紹介しましす。



gacco

gaffoとは大学教授をはじめとした一流の講師陣による本格的な講義を、誰でも無料で受けられるウェブサービスです。
 
gaccoはMOOCというオンラインで講義や課題を受けられるサービスの1つです。
今回紹介する講座の提供元は総務省統計局です。この講座を登録・受講したからといって「続きはこちら」などと言って高額な有料講座を勧められることもありません。


今回gaccoにデータ分析未経験者向けの口座が開講されました。


社会人のためのデータサイエンス入門
社会人のためのデータサイエンス演習
スクリーンショット 2019-10-13 19.28.17



今回社会人のためのデータサイエンス入門が開講されたことに併せ、2019年5月14日に開講された社会人のためのデータサイエンス演習が再び受講できるようになりました。



講座内容

「入門」ではデータ分析の基本的な言葉やデータの見方を紹介しているのに対し、「演習」では実際のExcelのデータを使ってデータ分析の基本を学ぶことができます。

社会人のためのデータサイエンス入門
今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。

この講座は4週間のコースになります。

第1週:統計データの活用

第2週:統計学の基礎

第3週:データの見方

第4週:公的データの使い方とコースのまとめ



社会人のためのデータサイエンス演習

総務省統計局が提供する講座、ビジネスの現場で求められているデータサイエンスをわかりやすく解説します。

今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法を身につける。

この講座は5週のコースになります。

第1週:データサイエンスとは

第2週:分析の概念と事例

第3週:分析の具体的手法

第4週:ビジネスにおける予測と分析結果の報告

第5週:ビジネスでデータサイエンスを実現するために



必要なこと

Excelを使います。



どうやって勉強するの?

どちらの講座も2つのパートからなっています。

動画による講義

各週に5〜10個程度のyoutubeの動画で学びます。
それぞれの動画は10分前後なのに加えyoutubeなので再生速度を上げることもできるので通勤時間などすきま時間でも勉強ができます。

課題

各週の最後に課題があります。

課題は今の所全て選択形式です。内容としては講義動画を見れば全て解答できるレベルになっています。

加えてExcelの実際のデータを使った課題でもアドインツールやピボットテーブルを使うことで関数を使った計算などを必要としないので1問1問の時間もさほどかかりません。


教材

動画があるので無くても受講可能ですが、もし紙媒体でも欲しいという方がいればスタディーノートがAmazonで発売されています。






何が学べるか?

基本的な統計量
「平均値に騙されない」という内容で平均値・中央値・最頻値の紹介や分布によってどの値を使えばいいのかを紹介しています。

表・グラフの使い方

どういった場面にどんなグラフを使えばいいのか?といった紹介やExcelを使ったグラフの作成方法について紹介しています。

表はピボットテーブルを使ったクロス集計表、グラフは棒グラフや折れ線グラフ・散布図が紹介されています。またこういったグラフはダメ!といった注意点も紹介されています。

相関と因果関係、単回帰直線

データから散布図を作り相関係数や単回帰直線を作成します。
また相関関係と因果関係の用語の説明と相関関係と因果関係は違うことを丁寧に紹介しています。

Excelで単回帰直線を作り予測をするといった流れも紹介されていますが、重回帰やロジスティック回帰などは今回の講義の範囲外となっています。

時系列分析

時系列データの基本的な見方(傾向・循環変動 + 季節変動 + 不規則変動に分けるなど)やExcelを使った分解方法などについて紹介があります。


データの報告の仕方

こういった内容を講座で見たことがなかったのですが個人的に参考になったのが「演習」にあった分析結果の報告の仕方でした。

こういったところに気をつけないと、データは正しくても誤って解釈して報告する恐れがありますよ!といったところに時間を割いて説明されています。

それだけでなく悪意のあるデータの見せ方を見抜く力がつくと感じました。



公的データの使い方

公的統計データの入手方法について紹介があります。



実際に受講して感じたこと








ツイートでも紹介しましたがデータ分析未経験な方こそ向いていると感じました。既に研究をしていたり統計学を勉強している方には講義動画を見なくても課題を全問正解できるような内容かもしれません。

そもそも統計学が好きな人なんてマイノリティで、数学や統計学の用語はわかりにくいものが多いです。

講義では数式とかExcelの関数を使うことが無く、数学や統計学の話に寄りすぎていないので数学・統計学とかよくわからない、Excelの操作がよくわからないという方でもとっつきやすい構成になっていると感じました。

今回の内容がわかればデータに関するリテラシーは確実に上がると思いますし、個人的にはこの内容を押さえてくれてたら相談されたとしてもすごく話がしやすい!と感じました。

・データ分析何もわからんという状態をなんとかしたい
・今までしたこと無いけどデータ分析が必要になった
・統計の本とか読んでもわからん(そもそも「読む」なんて選択しがない)
・Excelでの分析は職場の報告書を使っているだけで、新たに分析しようとなっても使い方がわからない

上記のような方は今回の受講は何かのきっかけになるかもと感じました。


講座のスケジュールについて

どちらの講義も期限があります。


社会人のためのデータサイエンス入門

スクリーンショット 2019-10-14 1.42.28

Week1は動画はすきま時間でも見れる分量で、課題も講義を見れば確実に正解できる内容で5問しかない(計算もExcelも必要ない)のでその気になれば1日でも何とかなるかもしれません。

すべての課題を締切日までにパスできれば修了証がもらえます。



社会人のためのデータサイエンス演習

こちらは過去の授業のアーカイブなので5週分の全講義がアップされています。

開講日:2019年10月8日(火)15時
閉講日:2019年12月17日(火)23時59分

自分のペースで勉強できるのもgaccoのいいところです。




まとめ

今回は社会人のためのデータサイエンス入門・演習を紹介しました。
データとか苦手という方がとっつきやすい講座ですので、興味があれば期限もありますので受講をおすすめします。







第3章ではggplot2を使ったグラフの作り方について説明してきました。

【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数

【3-5】Rのggplot2で密度曲線を作るgeom_density関数

【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数

【3-7】棒グラフの基本とRのggplot2で棒グラフを作るgeom_bar関数

【3-8】ggplot2で折れ線グラフを作るgeom_line関数

【3-9】ggplot2でヒートマップを作るgeom_tile関数

【3-10】Rのggplot2でグループ毎にグラフを作りまとめて表示するfacet_wrap関数

【3-11】Rのggplot2で作った複数のグラフを1つにまとめるgridExtraパッケージ


今まで基本的なグラフの作り方について紹介しましたが、ggplot2は他にも様々なな調整やができます。


今回はグラフを作るときに参考になるサイトを紹介します。


質・量共にこのサイトより充実しているものばかりですが、ある程度慣なれていないと読み解けない箇所もあります。(初心者に向けた)説明の細かさはこのサイトが1番だと思いますので、困ったらこのサイトで確認してください。



チートシート
チートシートとは直訳するとカンニングペーパーという意味で、スライド1〜2枚でその機能を確認できる便利シートになります。基本的な使い方でこまればまずはチートシートを確認しています。

Rにもいろいろなチートシートがあり、ggplot2のチートシートもあります。
ggplot2のチートシートはRStudioのヘルプ→Cheetsheetsにあります(英語版)。

スクリーンショット 2019-10-08 21.44.51

また日本語版もありますのでダウンロードしてお使いください。



書籍

RユーザのためのRStudio[実践]入門
−tidyverseによるモダンな分析フローの世界

松村 優哉 (著), 湯谷 啓明 (著), 紀ノ定 保礼 (著), 前田 和寛 (著)

通称「宇宙本」
この本は初めてRを勉強する方に最初に進めている本です。
Rの基本的な操作から第2章で行ったデータハンドリング、第3章で行ったggplot2によるグラフ作成も紹介されています。他にもウェブスクレイピングやレポートの作成などRを使ってデータ分析を行いたい方にはピッタリはまると思います。


Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

この本ではggplot2の細かい使い方が紹介されている辞書的な1冊です。
ただ2013年の本なのでRやggplotのバージョンの問題で上手く動かないものがあるというコメントもあります。
実はこの本の第2版がオンラインで無料で読むことができます(英語)。



サイト

グラフ描画ggplot2の辞書的まとめ20のコード

ggplot2による可視化入門


biostatistics

これらのサイトはggplot2の基本的な使い方や代表的なグラフ、オプションの説明があります。
まだ慣れない時期はこれらのサイトを見比べながら少しずつイメージを掴むようにしてました。


From Data to Viz
スクリーンショット 2019-10-08 22.59.39



海外のサイトですが用途を選べばどのグラフを使えばいいか、そのコードサンプルを表示してくれます。そもそもどんなグラフを使えばいいか分からない場合は参考になります。




R Graphics Cookbook, 2nd edition
先程の「Rグラフィックスクックブック」の第2版です。
英語版では書籍がありますが、オンライ版は無料となっています。
ggplot2の辞書的な使い方ができますので、困ったことがあるとよくお世話になっています。
英語ではありますが、第3章を一通り試す+google翻訳でも参考になる部分は大きいと思っています。

Data Visualization
こちらも英語版ではありますが、Rを使ったグラフ作成について考え方から実際のコードまで紹介されています。中上級変ではありますが勉強になります。

Introduction to Data Science
私がRを勉強するのに利用したMOOC(Edx)のテキストです。英語ですが無料で読めます。
ggplot2に関しても詳しい説明があります。
こちらではデータ視覚化の原則(これだけは絶対にするな集)もあるので一読を進めます!



r-wakalang
Rに関するどんな質問でも気軽に相談できるslackになります。
Rは実はコミュニティーが平和で、初心者的な質問でも誰かがわかりやすく回答してくれる非常に珍しい(貴重な!)場になっています。
ggplot2に関してのスレッドもあります。


まとめ
今回はRのggplot2を使うときに参考になる書籍やサイトを紹介しました。
これからも参考になる情報があれば更新したいと思います。

このサイトはRどころかプログラミング自体わからない状態からRの基本的な使い方がわかり、集計やグラフ作成、基本的な医療統計(もしかしたら機械学習の基礎)が使えることを目指しています。

自分はプログラミングの専門家でもありませんし、データサイエンティストとして生計を立てているわけでもありません。

病院に勤務している一理学療法士です。

ただ、日々業務をしながらデータ分析とかしてみたいんだけど、そもそも何からしたらいいのかわからない学会で統計が必要なんだけど全然わからないと感じている方は自分も含めいると思います。

そういった分析の専門家でない方に少しでも参考になる部分があり、もし興味が出てきたらこのサイトを卒業して、然るべき書籍や講義などステップアップしていただければ幸いです。



自分は2018年夏にRや統計を独学しようと思い、Edxで「HarvardX  Professional Certificate inData Science」を受講し修了しました。


スクリーンショット 2019-07-13 22.34.33


このサイトはそこで学んだことの自分への備忘録にもなります。

MITTI1210 on Twitter

Edxで「ハーバードX データサイエンスプロフェッショナルコース」受講中 ①Rの基礎 ②グラフの作り方 ③確率 ④推論とモデリング ⑤生産性ツール ⑥ラングリング(データ整理) ⑦線形回帰 ⑧機械学習 ⑨応用 全9回の講義。全て合格目指します。 https://t.co/SkfjzAH64w






サイトの内容はプログラム経験者や独学が得意な方にはくどく、必要な情報が全て載っていないとお叱りを受けると思います。ただ、プログラム未経験者だった自分が「このぐらい噛み砕いて説明してほしかった!」「まずはこんな順で教えてほしかった!」と感じたことを記事にしています


まずはイメージがしやすいこと、とりあえず動くことを念頭において記事を作成しています。情報を網羅するというより必要最低限の情報だけ伝え、必要になった場面で追加の情報が出てくるようにしたいと考えています。もしかしたら辞書的な使い方には向いていないかもしれません。多くの素晴らしいサイトや書籍がありますので、そちらもご参照ください。


そのため第1章から順に読むと徐々に知識が追加され、途中で復習できるよう構成しています。

途中で読んでわからないところは基本的に以前の記事に情報があるようにしているので、困った時は前の記事を確認してみてください!



第1章:Rの基本の「き」


Rって何?

【1-1】統計ソフトRで何ができるか説明してみる


Rのソフトについて

【1-2】RコマンダーやRStudioなどRのソフトにも色々あるので解説してみる

【1-3】Rのソフトはどれを使えばいいか?目的別チャートを作りました

【1-4】はじめてのRStudio。基本的な画面の説明をします

【1-5】Rコマンダーの基本的な画面の説明を行います

【1-6】Rstudioのプロジェクトについて解説します

【1-7】Rで使うパッケージのインストールについて紹介します。



Rの基本的な使い方について

【1-8】R の「変数」について説明します。

【1-9】医療統計をRで使うために必要な「データフレーム」にの考え方ついて

【1-11】Rで医療統計で必要なtable1を作るtableoneパッケージについて紹介します

【1-12】Rで特定の条件にあう要素を抜き出す方法

【演習1】R初心者が統計をかけるための前準備の流れを復習します


第2章:データを扱う

【2-1】Rのfor関数、apply関数を使ってまとめて標準偏差などの統計量を求める方法

【2-2】Rのmutate関数を使って列の追加や修正を行う

【演習2】データハンドリングの基礎を復習します



第3章:グラフを作る

【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数

【3-5】Rのggplot2で密度曲線を作るgeom_density関数

【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数

【3-7】棒グラフの基本とRのggplot2で棒グラフを作るgeom_bar関数

【3-8】ggplot2で折れ線グラフを作るgeom_line関数

【3-9】ggplot2でヒートマップを作るgeom_tile関数

【3-10】Rのggplot2でグループ毎にグラフを作りまとめて表示するfacet_wrap関数

【3-11】Rのggplot2で作った複数のグラフを1つにまとめるgridExtraパッケージ

【まとめました】Rの初心者がggplot2でグラフを作るときに参考になる本やサイト集


その他

自己紹介

昨年(2018年)の振り返りと今年の目標

【データ分析の基礎が無料で学べます】総務省が提供する「社会人のためのデータサイエンス入門・演習」を実際に受講してみた


Qiita

ROC曲線とPR曲線の違いを混合行列と有病率から考えてみる

ggplot2で100%積み重ね棒グラフの真ん中に値を表示させたい

箱ひげ図の「ひげ」の上端と下端の値を知りたいので関数を自作した


Fukuoka.R

Fukuoka.R #14
Harvard Xについて解説しています。



Fukuoka.R #15
10点のテスト(順序尺度)の経時的変化をグラフ化するアイデアを載せています。
コードも載せていますが【3-9】ggplot2でヒートマップを作るgeom_tile関数で紹介しています。


↑このページのトップヘ