このサイトはRどころかプログラミング自体わからない状態からRの基本的な使い方がわかり、集計やグラフ作成、基本的な医療統計(もしかしたら機械学習の基礎)が使えることを目指しています。

日々業務をしながらデータ分析とかしてみたいんだけど、そもそも何からしたらいいのかわからない学会で統計が必要なんだけど全然わからないと感じている方は自分も含めいると思います。

そういった分析の専門家でない方に少しでも参考になる部分があり、もし興味が出てきたらこのサイトを卒業して、然るべき書籍や講義などステップアップしていただければ幸いです。


私は2018年夏にRや統計を独学しようと思い、Edxで「
HarvardX  Professional Certificate inData Science」を受講し修了しました。


スクリーンショット 2019-07-13 22.34.33


このサイトはそこで学んだことの自分への備忘録にもなります。

MITTI1210 on Twitter

Edxで「ハーバードX データサイエンスプロフェッショナルコース」受講中 ①Rの基礎 ②グラフの作り方 ③確率 ④推論とモデリング ⑤生産性ツール ⑥ラングリング(データ整理) ⑦線形回帰 ⑧機械学習 ⑨応用 全9回の講義。全て合格目指します。 https://t.co/SkfjzAH64w






サイトの内容はプログラム経験者や独学が得意な方にはくどく、必要な情報が全て載っていないとお叱りを受けると思います。ただ、プログラム未経験者だった自分が「このぐらい噛み砕いて説明してほしかった!」「まずはこんな順で教えてほしかった!」と感じたことを記事にしています


まずはイメージがしやすいこと、とりあえず動くことを念頭において記事を作成しています。情報を網羅するというより必要最低限の情報だけ伝え、必要になった場面で追加の情報が出てくるようにしたいと考えています。もしかしたら辞書的な使い方には向いていないかもしれません。多くの素晴らしいサイトや書籍がありますので、そちらもご参照ください。


そのため第1章から順に読むと徐々に知識が追加され、途中で復習できるよう構成しています。

途中で読んでわからないところは基本的に以前の記事に情報があるようにしているので、困った時は前の記事を確認してみてください!



第1章:Rの基本の「き」


Rって何?

【1-1】統計ソフトRで何ができるか説明してみる


Rのソフトについて

【1-2】RコマンダーやRStudioなどRのソフトにも色々あるので解説してみる

【1-3】Rのソフトはどれを使えばいいか?目的別チャートを作りました

【1-4】はじめてのRStudio。基本的な画面の説明をします

【1-5】Rコマンダーの基本的な画面の説明を行います

【1-6】Rstudioのプロジェクトについて解説します

【1-7】Rで使うパッケージのインストールについて紹介します。



Rの基本的な使い方について

【1-8】R の「変数」について説明します。

【1-9】医療統計をRで使うために必要な「データフレーム」にの考え方ついて

【1-11】Rで医療統計で必要なtable1を作るtableoneパッケージについて紹介します

【1-12】Rで特定の条件にあう要素を抜き出す方法

【演習1】R初心者が統計をかけるための前準備の流れを復習します

【1-13】Rで読み込みやすいExcelファイルの作り方



第2章:データを扱う

【2-1】Rのfor関数、apply関数を使ってまとめて標準偏差などの統計量を求める方法

【2-2】Rのmutate関数を使って列の追加や修正を行う

【演習2】データハンドリングの基礎を復習します



第3章:グラフを作る

【3-1】ExcelにはないRでグラフを作るメリットと特徴

【3-2】ggplot2でグラフを作る流れを説明します

【3-3】Rのggplot2で散布図を作るgeom_point関数

【3-4】Rのggplot2でヒストグラムを作るgeom_histogram関数

【3-5】Rのggplot2で密度曲線を作るgeom_density関数

【3-6】Rのggplot2で箱ひげ図を作るgeom_boxplot関数

【3-7】棒グラフの基本とRのggplot2で棒グラフを作るgeom_bar関数

【3-8】ggplot2で折れ線グラフを作るgeom_line関数

【3-9】ggplot2でヒートマップを作るgeom_tile関数

【3-10】Rのggplot2でグループ毎にグラフを作りまとめて表示するfacet_wrap関数

【3-11】Rのggplot2で作った複数のグラフを1つにまとめるgridExtraパッケージ

【まとめました】Rの初心者がggplot2でグラフを作るときに参考になる本やサイト集



第4章:統計

【4-0】第4章を進めていく上での準備

【4-1】Rでt検定を行う方法

【4-2】RでMann-Whitney U 検定を行う方法

【4-3】Rで対応のあるt検定を行う方法

【4-4】RでWilcoxon符号付順位和検定を行う方法

【4-5】RでFisherの正確検定とカイ二乗検定を行う方法

【4-6】Rのt検定の結果からp値や信頼区間の数値を取り出す方法

【4-7】Rで検定した結果から95%信頼区間のグラフを作る方法

【4-8】p値と信頼区間の関係性をざっくり説明してみる





その他

自己紹介

昨年(2018年)の振り返りと今年の目標

【データ分析の基礎が無料で学べます】総務省が提供する「社会人のためのデータサイエンス入門・演習」を実際に受講してみた


Qiita

ROC曲線とPR曲線の違いを混合行列と有病率から考えてみる

ggplot2で100%積み重ね棒グラフの真ん中に値を表示させたい

箱ひげ図の「ひげ」の上端と下端の値を知りたいので関数を自作した

「タイがあるため、正確な p 値を計算することができません」に対してのwilcox.test、wilcox_testの設定方法





Fukuoka.R

Fukuoka.R #14
Harvard Xについて解説しています。



Fukuoka.R #15
10点のテスト(順序尺度)の経時的変化をグラフ化するアイデアを載せています。
コードも載せていますが【3-9】ggplot2でヒートマップを作るgeom_tile関数で紹介しています。