カテゴリ: 雑記

最近は大きなお金を出さなくてもプログラミングを学べるサービスやサイトが増えてきました。

データ分析を行うRやpythonに関しても同様で、その気になれば無料で学ぶこともできます。

私は2018年夏〜2019年春にかけてRのオンラインのコースを受講しました。

そして今回はpythonを使ったデータサイエンスを学ぶために2019年12月〜2020年3月に開催された東京大学グローバル消費インテリジェンス寄附講座(GCI 2019 Winter)を受講しました。



スクリーンショット 2020-03-25 17.09.59
おかげさまで無事に終了することができました。

今回はGCIについて紹介します。


1.参加者

GCI 2019 Winterでは東京大学の学生だけでなく、社会人、他の大学生、高校生と幅広い層が参加しました。

受講には事前テストがあります。
受講前に、スキルを確認のための簡易のテストを実施する可能性があります。内容は主にPythonのプログラミングに関するもので、一部Numpyや行列処理に関する問題を出題する予定です。レベルとしては基礎的なものを出題します( https://github.com/jakevdp/WhirlwindTourOfPython のようなレベルです)。申込者が多数の場合は、テストの結果および当フォームの記載内容も加味して一定数に申込者を絞った後、最終的には抽選で受講者を決定する予定です。
上記リンクを完全に理解できていなくても十分大丈夫です。出題されるのは基礎的な範囲です。
ただ講義が始まると何度も資料を見直しながら試行錯誤することになるので、事前に予習としてテキストを見てコードを書く練習になります。


2.講義内容

主に毎週配られる講義資料での自主学習、宿題、コンペ、最終課題があります。

講義内容
スクリーンショット 2020-03-28 15.11.43

上記はGCI 2019 Winterのスケジュールです。講義毎にiLectというものをつかい、オンライン上で資料を読みコードを実行しながら学ぶ形でした。資料はダウンロードすることも可能です。

今回webスクレイピングやpythonを使ったアプリ開発などは講座の対象範囲外でした。


宿題
1回 / 1〜2週のペースで宿題があります。
宿題は提出すると0時に採点され、締切までに正解することが求められれました。
締切日に宿題を行うと1回勝負の提出になるので早めに行うことがポイントです。
またslackを通じて学生同士で情報共有ができる、締め切り数日前から受講生同士でヒントを出し合ったりしていました。


コンペ
kaggleというデータのコンペティションのサイトがあるのですが、それに準じたコンペが3回ありました。コンペではあるデータから機械学習の予測モデルを作り、未知のデータでどの程度精度が出るかを競いました。受講生同士でスコアを競い合うのでかなり修行になりました。

またslackで情報共有したり成績優秀者の解法を共有したりとテキストでは学べないことを多く学びました。

個人的にはこのコンペでかなり鍛えられた感覚があります。上位に入るにはテキストにあること以上に調べることが増えるからです。

自分は3回のコンペで38/799位、116/465位、101/628位でした。

もっと上位を目指したかったのですが、そうは甘くなかったです。


slackによる情報共有
前述にありましたがslackによる情報共有が多く行われていました。

宿題やコンペの質問や講義以外のその他の有用な情報、諦めそうな時の励ましの言葉などオンラインであっても1人ではないという感覚は強かったです。

Edxでもそうでしたが、独学だとどうしても息が切れそうな中、一緒に勉強している人がいるという感覚はとても大切な要素だと思います。

何度か心折れそうになりましたが、最終的には約400人が合格しました。
共有する力は大きいと思います。


修了者イベント

修了証の発行、修了者へのクローズなコミュニティなど修了後のメリットもあります。
修了者向けのイベントがある予定ですが、COVID-19の影響で延期になりました。


3.実は講義資料は今でも確認できる
事前のテスト、宿題、コンペ、最終課題など非公開のものもありますが、実は前年度の講義資料は書籍化されています。

東京大学のデータサイエンティスト育成講座
大澤 文孝
マイナビ出版
2019-03-14



またその気があれば講義データも無料公開されています。



内容は一緒ですが書籍は以下のメリットがあります。

・自分のパソコンで始めるためのインストール、設定方法が紹介されている
・(確実に)見やすい
・辞書のように使える

なので私は「この講義を受ける」と思った日に書籍を購入して何度も見返しました。


4.自分が経験できたこと
この3ヶ月、pythonほぼ未経験者でも講義資料やslackを通じた情報共有で以下のことが体験できました。

・pythonの基本的な使い方
・numpyやmatplotlib、pandasなどの使い方
・探索的データ分析(EDA)
・scikit-learnを使った機械学習
・(コンペを通じて)lightGBMなどの勾配ブースティングの使用経験
・クロスバリデーションやGridSearchCV、optunaを使ったパラメータ調整
・成績優秀者の解法に触れる
・「データ集めてとりあえず機械学習・AIを使えば何かいい結果が出るんだ」なんて甘い話はないこと


本だけでは学べない経験ができたと思います。


5.次回の予定

4月以降に次回GCIが開催される予定ですが、次回は学生限定だそうです(東京大学以外でもOK)。
社会人向けは過去4年間は冬に開催されていましたが、2020年も開催されるかどうかは決まっていません。もともと2019年度も一時開催しない予定と連絡があったので、あったらラッキーという認識です。

学生の方はチャンスだと思いますし、もし今後社会人の講義が開催されることがあれば検討の価値はあるかなと思います。


6.まとめ

今回は東京大学グローバル消費インテリジェンス寄附講座(GCI)について紹介しました。
もし興味があればtwitterで #GCI で受講生のツイートが確認してみてはいかがでしょうか。
(2019年12月〜2020年3月の期間で検索)

amazon
東京大学のデータサイエンティスト育成講座
大澤 文孝
マイナビ出版
2019-03-14



楽天
東京大学のデータサイエンティスト育成講座 [ 塚本邦尊 ]
東京大学のデータサイエンティスト育成講座 [ 塚本邦尊 ]


2019年もあと1日となりました。

昨年末からブログを初めて1年。マイペースに続けているブログですがブログやtwitterを通じて色々な出会いがある1年となりました。

今回は来年に向けてということで、今年の振り返りと来年の目標を表明していきます。

ちなみに昨年の記事がこちらです。



昨年末に上げた目標がこちらでした。

・Edxで勉強しているRを終了させる
・4月からpythonを勉強する
・アウトプットを引き続き行う

1.Edxで勉強しているRを終了させる

2018年夏にRを独学で学ぼうと始めたEdxのdatascienceのシリーズです。
9つコースがあるのですが、無事修了できました!!!
最初はRのコードを書くのに精一杯で、最後は英語のレポートに大苦戦したのも楽しい思い出です。
ただ推定や機械学習はまだ勉強が必要ですねー。



本来このコースは週2〜3時間勉強すると約1年半かかるコースのようです。
毎日3時間(多い時は15時間)学習して、9ヶ月(学会などでできない時期もあったので実質には7ヶ月程度)くらいかかりました。

あくまでも個人の感想ですが、このコースが終了できれば以下のことは出来るようになるのではと感じています。
・初心者を脱して今から中級者を目指す
・Rの書籍がアレルギーを起こさずに読めるようになる
・(Rを使う)職場なら教えてもらったことが理解できる
・今後も自習で学ぶことが出来る
・パッケージ開発はできない

修了証をもらわず勉強するだけなら無料なので興味がある方は是非挑戦してみてください!




2.pythonを勉強する

2019年末に東京大学グローバル消費インテリジェンス寄付講座を受講したいと思っていて、そのためにはpythonを学ぶ必要がありました。

一度アップされている資料を見たのですがRとどこが同じで違うのかを中々理解できませんでした。
そのための準備として村本先生の非エンジニアのためのプログラミング入門講座を受講することにしました。




今は予定通り東京大学グローバル消費インテリジェンス寄付講座の受講真っ最中で、3月の修了を目指しています。

今回はKaggleのようなコンペが3回あり、Edxの時よりもより実践的にデータ分析を勉強しています。
(Edxでもありましたが実力不足なのは否めませんでした)

3.アウトプットを続ける

ブログ47記事


Qiita4記事


記事は50記事書いてました。
現在はハルさんと「シロート統計学」のEZRでやった解析をRで行うとどうなるか?といった記事を作成しています。

Fukuoka.R

EdxでRのコースを終了してからFukuoka.Rの勉強会にも参加するようになりました。

今年はLT(5分程度の発表)を2回行いました。





来年も発表できるようネタを考えてみたいと思います。


学会2つ

日本リハビリテーション医学会と日本神経理学療法学会で発表しました。

神経はチームの後輩の分も関わっていたので主に3つ行いました。

今年は学会を通じて、twitterで関わった方と直接お話できました。その節は本当にありがとうございました!


来年の目標

GCI(東京大学グローバル消費インテリジェンス寄付講座)の修了

まずは医療統計だけでなくデータサイエンスのスキルを上げるためにこの講座の修了を目指します。

毎週課題がありコンペもありますが、1年前のRの経験があるので今回もやりきれると思っています。

ただ自分でコンペは最初よりもスコアが下がっているのでコツコツがんばります。

そして大学数学をやったことないのに線形代数を勉強が必要なので、出来る範囲で勉強していきます。


統計検定2級取得

統計を勉強しているので統計検定2級は取得したいと考えています。

秋に「GCIがないかも」という情報だったのでpythonより統計検定を先にしようか?とも思っていたのですが、GCIを受けられることになったので4月以降に始めたいと考えています。


学会

来年は神経理学療法学会と回復期の学会で発表できないか検討しているところです。

ただ発表だけでなく論文も考えていきたいです。

部署のデータ分析を勧めたい

現在行っている部署のデータ分析をまとめたいと考えています。

部署でデータを取ると色々問題も発生することが多く、頭を悩ませながら進めています。

ただみんなに頑張ってもらっている分、成果がでるように踏ん張ってスタッフや患者さんへ還元できるよう踏ん張って結果を出したいと思ってます。

そしてまだ始めたけど時間が取れていないレセプトのデータ分析も結果を出して職場の収入へ貢献したいと考えています。


新しい挑戦

まだ公表してませんが、ブログやtwitterを通じて新しい話を頂いています。

初めてのことで不安もありますが、誠意をもって対応していきたいと思います。


まとめ

昨年は「勉強を始めよう」と1歩踏み出したところでしたが、この1年で多くの経験が行えたと思います。

ただ、まだ目に見えた成果物があるわけではありません。

データ分析も職場に貢献できて初めてやった意味があると思うので、結果を出すことを目指して頑張りたいと思います。






どんな分野に関わらずデータ分析に興味があるけどどうしたらいいか全然わからないという方向けの無料講座が開設されました。実際に受講してみたので、どんな内容か?どんな人向けなのか?を紹介しましす。



gacco

gaffoとは大学教授をはじめとした一流の講師陣による本格的な講義を、誰でも無料で受けられるウェブサービスです。
 
gaccoはMOOCというオンラインで講義や課題を受けられるサービスの1つです。
今回紹介する講座の提供元は総務省統計局です。この講座を登録・受講したからといって「続きはこちら」などと言って高額な有料講座を勧められることもありません。


今回gaccoにデータ分析未経験者向けの口座が開講されました。


社会人のためのデータサイエンス入門
社会人のためのデータサイエンス演習
スクリーンショット 2019-10-13 19.28.17



今回社会人のためのデータサイエンス入門が開講されたことに併せ、2019年5月14日に開講された社会人のためのデータサイエンス演習が再び受講できるようになりました。



講座内容

「入門」ではデータ分析の基本的な言葉やデータの見方を紹介しているのに対し、「演習」では実際のExcelのデータを使ってデータ分析の基本を学ぶことができます。

社会人のためのデータサイエンス入門
今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、本コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基本的な知識を学ぶ。

この講座は4週間のコースになります。

第1週:統計データの活用

第2週:統計学の基礎

第3週:データの見方

第4週:公的データの使い方とコースのまとめ



社会人のためのデータサイエンス演習

総務省統計局が提供する講座、ビジネスの現場で求められているデータサイエンスをわかりやすく解説します。

今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法を身につける。

この講座は5週のコースになります。

第1週:データサイエンスとは

第2週:分析の概念と事例

第3週:分析の具体的手法

第4週:ビジネスにおける予測と分析結果の報告

第5週:ビジネスでデータサイエンスを実現するために



必要なこと

Excelを使います。



どうやって勉強するの?

どちらの講座も2つのパートからなっています。

動画による講義

各週に5〜10個程度のyoutubeの動画で学びます。
それぞれの動画は10分前後なのに加えyoutubeなので再生速度を上げることもできるので通勤時間などすきま時間でも勉強ができます。

課題

各週の最後に課題があります。

課題は今の所全て選択形式です。内容としては講義動画を見れば全て解答できるレベルになっています。

加えてExcelの実際のデータを使った課題でもアドインツールやピボットテーブルを使うことで関数を使った計算などを必要としないので1問1問の時間もさほどかかりません。


教材

動画があるので無くても受講可能ですが、もし紙媒体でも欲しいという方がいればスタディーノートがAmazonで発売されています。






何が学べるか?

基本的な統計量
「平均値に騙されない」という内容で平均値・中央値・最頻値の紹介や分布によってどの値を使えばいいのかを紹介しています。

表・グラフの使い方

どういった場面にどんなグラフを使えばいいのか?といった紹介やExcelを使ったグラフの作成方法について紹介しています。

表はピボットテーブルを使ったクロス集計表、グラフは棒グラフや折れ線グラフ・散布図が紹介されています。またこういったグラフはダメ!といった注意点も紹介されています。

相関と因果関係、単回帰直線

データから散布図を作り相関係数や単回帰直線を作成します。
また相関関係と因果関係の用語の説明と相関関係と因果関係は違うことを丁寧に紹介しています。

Excelで単回帰直線を作り予測をするといった流れも紹介されていますが、重回帰やロジスティック回帰などは今回の講義の範囲外となっています。

時系列分析

時系列データの基本的な見方(傾向・循環変動 + 季節変動 + 不規則変動に分けるなど)やExcelを使った分解方法などについて紹介があります。


データの報告の仕方

こういった内容を講座で見たことがなかったのですが個人的に参考になったのが「演習」にあった分析結果の報告の仕方でした。

こういったところに気をつけないと、データは正しくても誤って解釈して報告する恐れがありますよ!といったところに時間を割いて説明されています。

それだけでなく悪意のあるデータの見せ方を見抜く力がつくと感じました。



公的データの使い方

公的統計データの入手方法について紹介があります。



実際に受講して感じたこと








ツイートでも紹介しましたがデータ分析未経験な方こそ向いていると感じました。既に研究をしていたり統計学を勉強している方には講義動画を見なくても課題を全問正解できるような内容かもしれません。

そもそも統計学が好きな人なんてマイノリティで、数学や統計学の用語はわかりにくいものが多いです。

講義では数式とかExcelの関数を使うことが無く、数学や統計学の話に寄りすぎていないので数学・統計学とかよくわからない、Excelの操作がよくわからないという方でもとっつきやすい構成になっていると感じました。

今回の内容がわかればデータに関するリテラシーは確実に上がると思いますし、個人的にはこの内容を押さえてくれてたら相談されたとしてもすごく話がしやすい!と感じました。

・データ分析何もわからんという状態をなんとかしたい
・今までしたこと無いけどデータ分析が必要になった
・統計の本とか読んでもわからん(そもそも「読む」なんて選択しがない)
・Excelでの分析は職場の報告書を使っているだけで、新たに分析しようとなっても使い方がわからない

上記のような方は今回の受講は何かのきっかけになるかもと感じました。


講座のスケジュールについて

どちらの講義も期限があります。


社会人のためのデータサイエンス入門

スクリーンショット 2019-10-14 1.42.28

Week1は動画はすきま時間でも見れる分量で、課題も講義を見れば確実に正解できる内容で5問しかない(計算もExcelも必要ない)のでその気になれば1日でも何とかなるかもしれません。

すべての課題を締切日までにパスできれば修了証がもらえます。



社会人のためのデータサイエンス演習

こちらは過去の授業のアーカイブなので5週分の全講義がアップされています。

開講日:2019年10月8日(火)15時
閉講日:2019年12月17日(火)23時59分

自分のペースで勉強できるのもgaccoのいいところです。




まとめ

今回は社会人のためのデータサイエンス入門・演習を紹介しました。
データとか苦手という方がとっつきやすい講座ですので、興味があれば期限もありますので受講をおすすめします。







このサイトを見ていただきありがとうございます。

MITTIといいます。

ここではこのページと自分の紹介を簡単にさせていただきます。



理学療法士をしています

回復期病棟で理学療法士をしています。メインは脳卒中です。

興味がある分野は「評価」です。


なぜ評価に興味があるのか?

現在理学療法には色々な治療技術があります。個人的にはどんな治療技術でもいいと思います。

どの治療技術にも学ぶべきところがあると思いますし、ボバースでも認知神経リハでもCIでもロボットでも別の治療を学ぶからこそ自分のやってきた技術を違う解釈で捉えられると思っています。

正直「言葉が違うだけで本質は同じことをしているんじゃないか?」と思うこともあります。

ただそこに共通言語がないだけで・・・

評価はその共通言語になりうると思います。そしてデータとなりこれからの理学療法の発展に寄与するのではないかと思っています。

●評価を使うことで現在の状態がわかる

●評価を使うことで治療効果が確認できる

●評価の組み合わせでクリニカルリーズニングができる

●評価を使うことで予測ができる


巨人の肩に乗る、車輪の再発明

「巨人の肩に乗る」や「車輪の再発明」という言葉があります。

先人たちの知恵を有効活用することは大切さを説明していますが、リハビリテーションではこれができているか考えることがあります。


経験を積むと「この患者はこうなるかも」という感覚があります。それを「評価」という言葉で説明できれば、後輩がそれを利用してくれればいいなと思います。




中間管理職をしています

自分が入職する前は電子カルテが導入されていなくて、数年して導入されました。

職場にExcelが強いスタッフがいなかったので、若手の頃から担当表やデータベースなど数多くのフォーマットを作ってきました。

Excelの相談ができる人もいなかったので全部独学でした。最近はマクロも使い始め「ボタン1つで今月入院した患者の評価ファイルを患者の人数分、しかも患者情報を自動入力して作成する」みたいなこともできるようになりました。

需要があればブログにExcelやマクロの記事も入れていこうと思っています。

(ただ素人なのできれいなコードなんてかけませんよ。泥臭くても動けばみんなハッピーなので)


また回復期ということもありいくつか他職種合同チームの立ち上げとかも経験しました。

理学療法の自分のチームのリーダーするより、他職種合同チームのリーダーをする方が得意だったりします。チームの目標が明確なので。



自分の強み

ストレングス・ファインダーの5つの強みは以下のとおりです。
  • 回復志向
  • 学習志向
  • 分析志向
  • 内省
  • 収集心

カリスマのようなリーダーではなく「メンバーを後方から支えながら次のステップへ導くリーダー」が自分にあっています。そしてデータを集め分析し学ぶのは自分の得意なスタイルです(苦に感じないという意味で)。


「評価に興味があるのも」分析志向と収集心が影響しているのかもしれません。


広告の配信について

当サイトは第三者配信の広告サービス「Google Adsense グーグルアドセンス」「Amazonアソシエイト」を利用しています。

広告配信事業者は、ユーザーの興味に応じた広告を表示するためにCookie(クッキー)を使用することがあります。

Cookie(クッキー)を無効にする設定およびGoogleアドセンスに関する詳細は「広告 – ポリシーと規約 – Google」をご覧ください

アクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。

このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。このトラフィックデータは匿名で収集されており、個人を特定するものではありません。この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。この規約に関して、詳しくはここをクリックしてください。


まとめ

簡単に自己紹介をさせていただきました。

これからもマイペースで進んでいきたいと思います。




遅れましたが、あけましておめでとうございます。

正月早々風邪を引いてしまいました。お晦日から5連勤だったはずなのに2日間も休んでしまい、正月早々職場のスタッフに迷惑をかけまくっています・・・

早く復活するよう布団に入ってますが、昨年の振り返りと今年の目標を整理しようかと思います。

昨年の振り返り

ロジスティック回帰分析を調べまくった2月。

学会発表の統計は昨年度まで大学院を卒業した職場の同僚にお願いしていました。ただそもそもの統計がわからなかったので、相談しても相手に思いが伝わらないことも多くありました。

そのため今年の日本神経理学療法学会は「自分でなんとか統計を頑張ろう」と思ったのが2018年の2月。使う統計は「ロジスティクス回帰分析」と「ROC曲線」ということはわかっていたのですが、すぐに理解できるわけでもなく毎日ネットで検索し続けていた記憶があります。

googleで「ロジスティクス回帰分析」と名の付くものはほぼ全て確認し、slideshareを知ったりyoutubeで新谷歩先生の医療統計を毎日見ていました。


もっと統計学を学ぼうと思った初夏

学会の抄録は完成して落ち着いてた頃、図書館に子供の絵本を探している時に統計の本もあることに気づきました。そこから図書館にある統計の本を片っ端から借りまくり、医療統計に限らず統計を勉強してみました。

そこで統計学と一言で言っても医療統計、機械学習、計量経済学、心理統計などそれぞれの分野で考え方や何に重きをおいているのかが微妙に違うことを知ることができました。

読んで勉強になった本もいつか紹介してみようかと思います。


同じ時期に情報収集にと仕事専用のtwitterも開設したのもこの頃だったと思います。


MOOCとプログラミングを知った夏

新谷歩先生のyoutubeを見ながらEdxというMOOCがあることをしりました。

MOOCとは?大学レベルの無料オンライン講義サービスを解説 | TECH::NOTE|テックノート|テクノロジー学習やエンジニア転職に役立つ情報を発信しています


大学院は妻が専業主婦で時間とお金もなく諦めていたのですが、MOOCを知って「これなら自分にもできる!」とEdxで勉強を始めることにしました。「専門卒でも院生に負けない!」という気持ちで今も続けています。


そして同時期にRENさんがプログラミングを勉強し合うMETCに参加しました。活動は短い期間でしたが、METCでのモチベーションが今に生かされています。



学会発表と統計は今まで以上にできた

自分が発表した学会はは1つでしたが、医師の発表も含め6つの学会発表の統計をRを使ってできました。来年の学会発表も3つ+α予定があり、もっと研究と統計は勉強したいです。




今年の目標

Edxで勉強しているRを終了させる
8月から始めているEdxを今年度中には終わらせるつもりで考えています。

Data Science

大晦日のtwitterでは「自分の勘違いで半分の講義が受けられなかった」と書きましたが、どうやら復活するようなので、(もしそうなら)頑張って全てクリアしたいと思います!


4月からpythonを勉強する

医療統計であればRだけで十分と思うのですが、今後の機械学習・AIを見越すとpythonの勉強も始めたいと思っています。pythonの勉強をする目的の1つが東京大学のData Science Online Courseです。今年挑戦できるか、去年のテキストも受けてみましたがpythonの基本も勉強していなかったので、まずはprogateから初めて行きたいと思っています。


アウトプットを引き続き行う

研究や先月から始めたブログだけでなくQiitaへの投稿もはじめました。

ROC曲線とPR曲線の違いを混合行列と有病率から考えてみる - Qiita


色々な形でのアウトプットを続けていきたいと思います。

まとめ



上記ツイートのように、長期的な目線では研究だけでなく色々な形で今の勉強が活かせたら面白いだろうなぁという気持ちでマイペースで進んでいきたいと思います!

↑このページのトップヘ