どんな分野に関わらずデータ分析に興味があるけどどうしたらいいか全然わからないという方向けの無料講座が開設されました。実際に受講してみたので、どんな内容か?どんな人向けなのか?を紹介しましす。

2020/10/2更新
社会人のためのデータサイエンス演習が受講できるようになりました。
社会人のためのデータサイエンス入門は修了証はもらえませんが受講はできます。

gacco

gaffoとは大学教授をはじめとした一流の講師陣による本格的な講義を、誰でも無料で受けられるウェブサービスです。
 
gaccoはMOOCというオンラインで講義や課題を受けられるサービスの1つです。
今回紹介する講座の提供元は総務省統計局です。この講座を登録・受講したからといって「続きはこちら」などと言って高額な有料講座を勧められることもありません。


今回gaccoにデータ分析未経験者向けの口座が開講されました。


社会人のためのデータサイエンス演習
社会人のためのデータサイエンス入門




講座内容

「入門」ではデータ分析の基本的な言葉やデータの見方を紹介しているのに対し、「演習」では実際のExcelのデータを使ってデータ分析の基本を学ぶことができます。



社会人のためのデータサイエンス入門
今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。

この講座は4週間のコースになります。

第1週:統計データの活用

~コースへの導入、分析事例から分析に用いる統計的な考え方、データの見方への導入を図る~

  • 大人がデータサイエンスを学ぶべき理由~はじめに
  • データサイエンスと統計~データサイエンスに基づいて課題を解決する能力を身に付けよう
  • 平均値の見方~分析事例(1)~"平均値"にだまされない
  • M字カーブの改善効果~分析事例(2)~少子高齢化社会を支える労働力人口の増加のために
  • 普及率の地域間比較~分析事例(3)~太陽光発電システムの普及率
  • 付加価値額と非正規職員比率の関係~分析事例(4)~付加価値額の産業間比較
  • スポーツをデータで科学する~分析事例(5)~ワールドカップで勝つためには
  • 合計特殊出生率の見方~分析事例(6)~都道府県別合計特殊出生率から見る少子高齢化
  • 国際比較データから日本社会を読み解く~分析事例(7)~国際比較データから見る平均寿命とGDPの関係と日本の特徴

第2週:統計学の基礎

~データ分析に必要な統計学の基礎を学ぶ~

  • 代表値~平均・中央値・最頻値~たくさんのデータをひとつの数値であらわそう
  • 分散・標準偏差~データの中の違いをあらわそう
  • 四分位・パーセンタイル・箱ひげ図~データの分布を表現しよう
  • 関係の見方・相関係数~データの間の関係を表現しよう(1)
  • 回帰分析~データの間の関係を表現しよう(2)
  • 標本分布~統計数値の精度を知ろう(1)
  • 信頼区間~統計数値の精度を知ろう(2)

第3週:データの見方

~データの見方について基本的な方法を学ぶ~

  • 統計表の見方~実際のデータを見てみましょう
  • 比率の見方(1)-クロスセクションデータ~比率の活用
  • 比率の見方(2)-使い方と注意点~比率を使った分析
  • 時系列データの見方(1)-基礎編~時間とともに観測されるデータ
  • 時系列データの見方(2)-発展編~様々な調整
  • 時系列データの見方(3)-分析編~予測をしてみましょう

第4週:公的データの使い方とコースのまとめ

~誰もが入手可能なデータである公的統計データの入手方法を学び、コースのまとめを行う~

  • 政府統計とは~統計局の統計調査の紹介
  • 公的データの入手方法~e-Statの紹介/e-Statの主な機能
  • e-Statの使い方(人口ピラミッド)~データベース機能を利用して人口ピラミッドを作ってみよう
  • 統計ダッシュボードの使い方~統計ダッシュボードの紹介/統計ダッシュボードを使ってみよう
  • 地図で見る統計(jSTAT MAP)の主な機能~jSTAT MAPの紹介/jSTAT MAPの主な機能
  • 地図で見る統計(jSTAT MAP)の使い方~jSTAT MAPを使って地図上にデータをあらわしてみよう
  • コースのまとめ~データサイエンス力の向上を目指して




社会人のためのデータサイエンス演習

総務省統計局が提供する講座、ビジネスの現場で求められているデータサイエンスをわかりやすく解説します。

今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法を身につける。

この講座は5週のコースになります。


第1週:データサイエンスとは

  • “データサイエンス”力の高い人材育成について
  • データサイエンスが必要とされる背景
  • データサイエンスに求められるスキルや知識
  • データサイエンスの将来
  • PPDACサイクルに沿った問題解決の進め方
  • 分析の設計手法

第2週:分析の概念と事例

~ビジネス課題解決のためのデータ分析基礎(事例と手法)(1)~

  • Analysis(分析)とは
  • 1変数の状況の把握(1)(可視化の活用)
  • 1変数の状況の把握(2)(代表値の活用)
  • 比較して2変数の関係を見る
  • ビジネスにおける比較(1)(概要)
  • ビジネスにおける比較(2)(適切なA/Bテストの活用)

第3週:分析の具体的手法

~ビジネス課題解決のためのデータ分析基礎(事例と手法)(2)~

  • クロス集計の軸設定と見方
  • 散布図と相関の調べ方
  • 相関関係と因果関係の違い
  • 時系列データの見方
  • 時系列データの分解の方法

第4週:ビジネスにおける予測と分析結果の報告

~ビジネス課題解決のためのデータ分析基礎(事例と手法)(3)~

  • 回帰分析による予測
  • モデル評価と予実評価
  • 分析結果の報告(記述/可視化方法)
  • 分析結果の報告(解釈の注意点)
  • 予測・分類等代表的手法と活用場面

第5週:ビジネスでデータサイエンスを実現するために

  • 各週のおさらい
  • データ分析に基づく問題解決ケーススタディ
  • 様々な企業で活躍するデータサイエンティスト
  • 企業でデータサイエンスを実現するためのポイント
  • 講座のまとめ


必要なこと

Excelを使います。



どうやって勉強するの?

どちらの講座も2つのパートからなっています。

動画による講義

各週に5〜10個程度のyoutubeの動画で学びます。
それぞれの動画は10分前後なのに加えyoutubeなので再生速度を上げることもできるので通勤時間などすきま時間でも勉強ができます。

課題

各週の最後に課題があります。

課題は今の所全て選択形式です。内容としては講義動画を見れば全て解答できるレベルになっています。

加えてExcelの実際のデータを使った課題でもアドインツールやピボットテーブルを使うことで関数を使った計算などを必要としないので1問1問の時間もさほどかかりません。


教材

動画があるので無くても受講可能ですが、もし紙媒体でも欲しいという方がいればスタディーノートがAmazonで発売されています。






何が学べるか?

基本的な統計量
「平均値に騙されない」という内容で平均値・中央値・最頻値の紹介や分布によってどの値を使えばいいのかを紹介しています。95%信頼区間に関しても丁寧に解説してくれています。

表・グラフの使い方

どういった場面にどんなグラフを使えばいいのか?といった紹介やExcelを使ったグラフの作成方法について紹介しています。

表はピボットテーブルを使ったクロス集計表、グラフは棒グラフや折れ線グラフ・散布図が紹介されています。またこういったグラフはダメ!といった注意点も紹介されています。

相関と因果関係、単回帰直線

データから散布図を作り相関係数や単回帰直線を作成します。
また相関関係と因果関係の用語の説明と相関関係と因果関係は違うことを丁寧に紹介しています。

Excelで単回帰直線を作り予測をするといった流れも紹介されていますが、重回帰やロジスティック回帰などは今回の講義の範囲外となっています。

時系列分析

時系列データの基本的な見方(傾向・循環変動 + 季節変動 + 不規則変動に分けるなど)やExcelを使った分解方法などについて紹介があります。


データの報告の仕方

こういった内容を講座で見たことがなかったのですが個人的に参考になったのが「演習」にあった分析結果の報告の仕方でした。

こういったところに気をつけないと、データは正しくても誤って解釈して報告する恐れがありますよ!といったところに時間を割いて説明されています。

それだけでなく悪意のあるデータの見せ方を見抜く力がつくと感じました。



公的データの使い方

公的統計データの入手方法について紹介があります。



実際に受講して感じたこと








ツイートでも紹介しましたがデータ分析未経験な方こそ向いていると感じました。既に研究をしていたり統計学を勉強している方には講義動画を見なくても課題を全問正解できるような内容かもしれません。

そもそも統計学が好きな人なんてマイノリティで、数学や統計学の用語はわかりにくいものが多いです。

講義では数式とかExcelの関数を使うことが無く、数学や統計学の話に寄りすぎていないので数学・統計学とかよくわからない、Excelの操作がよくわからないという方でもとっつきやすい構成になっていると感じました。

今回の内容がわかればデータに関するリテラシーは確実に上がると思いますし、個人的にはこの内容を押さえてくれてたら相談されたとしてもすごく話がしやすい!と感じました。

・データ分析何もわからんという状態をなんとかしたい
・今までしたこと無いけどデータ分析が必要になった
・統計の本とか読んでもわからん(そもそも「読む」なんて選択しがない)
・Excelでの分析は職場の報告書を使っているだけで、新たに分析しようとなっても使い方がわからない

上記のような方は今回の受講は何かのきっかけになるかもと感じました。


講座のスケジュールについて

講座の課題には期限があります。


ただ動画はすきま時間でも見れる分量で、課題も講義を見れば確実に正解できる内容だった(当時)ので、その気になれば1日でも何とかなるかもしれません。

すべての課題を締切日までにパスできれば修了証がもらえます。




まとめ

今回は社会人のためのデータサイエンス入門・演習を紹介しました。
データとか苦手という方がとっつきやすい講座ですので、興味があれば期限もありますので受講をおすすめします。