最近は大きなお金を出さなくてもプログラミングを学べるサービスやサイトが増えてきました。

データ分析を行うRやpythonに関しても同様で、その気になれば無料で学ぶこともできます。

私は2018年夏〜2019年春にかけてRのオンラインのコースを受講しました。

そして今回はpythonを使ったデータサイエンスを学ぶために2019年12月〜2020年3月に開催された東京大学グローバル消費インテリジェンス寄附講座(GCI 2019 Winter)を受講しました。



スクリーンショット 2020-03-25 17.09.59
おかげさまで無事に終了することができました。

今回はGCIについて紹介します。


1.参加者

GCI 2019 Winterでは東京大学の学生だけでなく、社会人、他の大学生、高校生と幅広い層が参加しました。

受講には事前テストがあります。
受講前に、スキルを確認のための簡易のテストを実施する可能性があります。内容は主にPythonのプログラミングに関するもので、一部Numpyや行列処理に関する問題を出題する予定です。レベルとしては基礎的なものを出題します( https://github.com/jakevdp/WhirlwindTourOfPython のようなレベルです)。申込者が多数の場合は、テストの結果および当フォームの記載内容も加味して一定数に申込者を絞った後、最終的には抽選で受講者を決定する予定です。
上記リンクを完全に理解できていなくても十分大丈夫です。出題されるのは基礎的な範囲です。
ただ講義が始まると何度も資料を見直しながら試行錯誤することになるので、事前に予習としてテキストを見てコードを書く練習になります。


2.講義内容

主に毎週配られる講義資料での自主学習、宿題、コンペ、最終課題があります。

講義内容
スクリーンショット 2020-03-28 15.11.43

上記はGCI 2019 Winterのスケジュールです。講義毎にiLectというものをつかい、オンライン上で資料を読みコードを実行しながら学ぶ形でした。資料はダウンロードすることも可能です。

今回webスクレイピングやpythonを使ったアプリ開発などは講座の対象範囲外でした。


宿題
1回 / 1〜2週のペースで宿題があります。
宿題は提出すると0時に採点され、締切までに正解することが求められれました。
締切日に宿題を行うと1回勝負の提出になるので早めに行うことがポイントです。
またslackを通じて学生同士で情報共有ができる、締め切り数日前から受講生同士でヒントを出し合ったりしていました。


コンペ
kaggleというデータのコンペティションのサイトがあるのですが、それに準じたコンペが3回ありました。コンペではあるデータから機械学習の予測モデルを作り、未知のデータでどの程度精度が出るかを競いました。受講生同士でスコアを競い合うのでかなり修行になりました。

またslackで情報共有したり成績優秀者の解法を共有したりとテキストでは学べないことを多く学びました。

個人的にはこのコンペでかなり鍛えられた感覚があります。上位に入るにはテキストにあること以上に調べることが増えるからです。

自分は3回のコンペで38/799位、116/465位、101/628位でした。

もっと上位を目指したかったのですが、そうは甘くなかったです。


slackによる情報共有
前述にありましたがslackによる情報共有が多く行われていました。

宿題やコンペの質問や講義以外のその他の有用な情報、諦めそうな時の励ましの言葉などオンラインであっても1人ではないという感覚は強かったです。

Edxでもそうでしたが、独学だとどうしても息が切れそうな中、一緒に勉強している人がいるという感覚はとても大切な要素だと思います。

何度か心折れそうになりましたが、最終的には約400人が合格しました。
共有する力は大きいと思います。


修了者イベント

修了証の発行、修了者へのクローズなコミュニティなど修了後のメリットもあります。
修了者向けのイベントがある予定ですが、COVID-19の影響で延期になりました。


3.実は講義資料は今でも確認できる
事前のテスト、宿題、コンペ、最終課題など非公開のものもありますが、実は前年度の講義資料は書籍化されています。

東京大学のデータサイエンティスト育成講座
大澤 文孝
マイナビ出版
2019-03-14



またその気があれば講義データも無料公開されています。



内容は一緒ですが書籍は以下のメリットがあります。

・自分のパソコンで始めるためのインストール、設定方法が紹介されている
・(確実に)見やすい
・辞書のように使える

なので私は「この講義を受ける」と思った日に書籍を購入して何度も見返しました。


4.自分が経験できたこと
この3ヶ月、pythonほぼ未経験者でも講義資料やslackを通じた情報共有で以下のことが体験できました。

・pythonの基本的な使い方
・numpyやmatplotlib、pandasなどの使い方
・探索的データ分析(EDA)
・scikit-learnを使った機械学習
・(コンペを通じて)lightGBMなどの勾配ブースティングの使用経験
・クロスバリデーションやGridSearchCV、optunaを使ったパラメータ調整
・成績優秀者の解法に触れる
・「データ集めてとりあえず機械学習・AIを使えば何かいい結果が出るんだ」なんて甘い話はないこと


本だけでは学べない経験ができたと思います。


5.次回の予定

4月以降に次回GCIが開催される予定ですが、次回は学生限定だそうです(東京大学以外でもOK)。
社会人向けは過去4年間は冬に開催されていましたが、2020年も開催されるかどうかは決まっていません。もともと2019年度も一時開催しない予定と連絡があったので、あったらラッキーという認識です。

学生の方はチャンスだと思いますし、もし今後社会人の講義が開催されることがあれば検討の価値はあるかなと思います。


6.まとめ

今回は東京大学グローバル消費インテリジェンス寄附講座(GCI)について紹介しました。
もし興味があればtwitterで #GCI で受講生のツイートが確認してみてはいかがでしょうか。
(2019年12月〜2020年3月の期間で検索)

amazon
東京大学のデータサイエンティスト育成講座
大澤 文孝
マイナビ出版
2019-03-14



楽天
東京大学のデータサイエンティスト育成講座 [ 塚本邦尊 ]
東京大学のデータサイエンティスト育成講座 [ 塚本邦尊 ]