RStudioではまずExcelやcsvファイル等を読み込む必要がありますが、そもそもExcelではRに読み込みやすい形とそうでない形があります。Excelの見栄え的には良くても実際にRで読み込もうとすると大変な手間になることもあります。

今回はRで読み込みやすいExcelのポイントを紹介します。



1.上や左に空白はないか?

スクリーンショット 2019-10-20 20.07.06

RでなにもせずにExcelファイルを読み込むとA1を始めとしてデータを読み込みます。よくExcelでかけ線を設定している場合B2から表をつくることがありますが、Rで読み込むときには一手間必要です。



2.一番下に合計の行がないか?

加えてもし一番下に合計や平均の列があったらそれも1データとして読み込んでしまうので注意が必要です。
Excelは集計のために使い分析をRで行う場合はそもそも無いほうが安全です。
もしExcelでも集計を行いたい場合は集計を別のタブで行うかピボットテーブルを使う方法があります。



3.タイトル行が2行に渡っていないか?

タイトル行が2行に渡っているとRではうまく読み込んでくれません。
そしてそういう場合はセル結合されていることも多いです。
こういった場合も対処が必要です。

タイトルが2行に渡った時の対処法に関しては以下の記事で説明しています。




4.無駄な空間を作らない
スクリーンショット 2019-11-24 6.59.39
上記の図のように空欄だとパソコンは読み込んでくれません。
列名をちゃんと書き、データは空欄にせず入力しましょう。

5.桁数に使う , を入れていないか

10,000などカンマ含む場合、Rで読み込むと数字ではなく文字として認識されます。
「どうしても , はつけないとダメ」と上司に言われてもRで , を取る方法はあります(parse_number関数)


6.マイナスの値を▲にしていないか?

-100を▲100にしていたらマイナスに直す必要があります。
文字の置換(ここでは▲ → − )にするにはstr_replaceなどの関数がありますが、手間を考えると−の方が手間が省けます。


7.和暦か西暦か?

和暦だと古いExcelではいつまでたっても令和になりません。
計算や列の順番を考えると西暦のほうが後々対処しやすいです。
加えて2001年を01年としないよう注意しましょう。


8.tidyなデータか?

データ分析を行う上で必要な考え方にtidy(タイディー:整然データ)なデータかどうかという考え方があります。

tidyに関しては以下の記事が具体例も交えながらわかりやすく説明されています。




これからデータ収集を考えている方は参考になると思います。


9.被験者間要因は左側に、被験者内要因は右側に並べる
先程tidyなデータの話がありましたが、実際にデータを取りExcelに打ち込む時に覚えておくと後で便利になる考え方があります。それは被験者間要因被験者内要因です。
スクリーンショット 2019-11-24 6.33.40
被験者間要因はいわゆる対応のないデータのことで被験者全体をA法、B法の2つに割り振るといった方法です。なので同じ人がA法とB法を行うことはありません。

被験者内要因はいわゆる対応のあるデータのことで同じ人が繰り返し測定します

加えて被験者間要因は列の左側に、被験者内要因は列の右側に並べると後々分析しやすくなります。
また被験者間要因は縦に、被験者内要因は横につなげるとEZRで分析を行うには都合がいいです。
もし横に列が長くなりすぎて困る場合は全部縦にしても大丈夫です。あとで横に変換できます。
スクリーンショット 2019-11-24 6.35.12
この方法は特に分散分析を行う場合に便利になります。



10.まとめ

予めExcelのデータをRで読み込みやすい形にするとデータの前処理で心が折れにくくなりますので参考にしてみてください!