第4章では様々な検定を紹介しています。

検定を行うとp値に目が向きがちですが、期待値と95%信頼区間を出す必要性も言われています。

今回はp値と95%信頼区間の関係性についてです。

1. p < 0.05 と95%信頼区間の関係

統計ソフトで検定をかけるとp値が出てきます。
ただ実はp値を見なくても95%信頼区間を見ればp < 0.05かどうかはグラフを見れば一目でわかります。
p < 0.05は95%信頼区間が基準を跨ぐかどうかと全く同じ意味です

スクリーンショット 2019-11-05 21.58.19
例えばt検定など2つの基準の差を見る検定では差が0という仮説を立てます。
95%信頼区間に0を含むかどうかとp < 0.05 かどうかは全く同じ意味です。

またFisherの正確検定やロジスティック回帰分析のようにオッズ比をみる検定ではオッズ比が1という仮説を立てます。
95%信頼区間に1を含むかどうかとp < 0.05 かどうかは全く同じ意味です。



1.p値だけ vs 信頼区間


たとえば架空のダイエットのメソッドがあったとします。数字は完全に適当です。

3つの架空のメソッドで3ヶ月トレーニングをした研究があったとします。ちなみに1つの研究ではなく、3つの別々研究だったとします。それぞれN数も違うとします。交絡因子などの共変量もここでは考えないこととします。

①p値のみで判断

メソッドA:p < 0.00001
メソッドB:p = 0.35
メソッドC:p = 0.11

この場合どれが効果ありと感じるでしょうか?

②期待値と信頼区間を見る

次に以下の期待値と95%信頼区間をみるといかがでしょうか?
マイナスになっているというのはそれだけ減量したという意味とします。
p < 0.05は95%信頼区間が0を跨ぐかどうかと全く同じ意味です

スクリーンショット 2019-11-05 21.09.08


③N数も追加

更にN数も追加してみます

スクリーンショット 2019-11-05 21.09.15


④95%信頼区間の特徴

95%信頼区間の幅はN数が増えると短くなるという特徴があります。
そのためどんな意味のない些細な効果でもN数を増やすと有意差が出やすくなります。
(倫理的にどうかはここでは言及しません)

Aは有意差はあるのですが、逆に言うと3ヶ月トレーニングして1kgの効果しかないメソッドとも言えます。更にN数を増やすと区間が狭くなるので有意差はより出るかもしれませんが、減量効果が上がる(点の位置が左に動く)訳ではありません。

Cはもしかしたらサンプルサイズの設計(取るべきN数)が足りなかっただけという研究の設定段階の問題なのかもしれません。もちろんN数を増やすことで信頼区間の幅だけでなく期待値もどう変わるかわかりませんが、有意差がなかったので効果が無いと断言してしまっていいのかどうかは気になります。


このようにp < 0.05の有無だけではどのくらい(意味のある)効果があったのかを判断できないこともありますし、p >= 0.05 だけで効果が無いと断言できるものでもありません(本当に意味のある効果がなかったのか、本来あったはずなんだけどN数が足りなくて効果がなかったのか判断つかない)。

そこに95%信頼区間があればp値のみよりも判断する材料が増えるかもしれません。


2.まとめ

今回はp値と信頼区間の関係性について紹介しました。
もちろん研究デザイン(共変量の調整など)やバイアスを評価することが大切なのですが、加えてp値だけにとらわれないように自分も気をつけたいと思います。