【統計】p<0.05時代はついに終焉か?米国統計学学会による声明
■米国統計学学会(the American statitional Association:ASA)がp値の適切な使用と解釈に基づく6原則による「統計学的有意性とp値に関する声明」を発表した.6原則は以下の通り.
(1) P-values can indicate how incompatible the data are with a specified statistical model.■まず,P値について,その解釈等は医療における学会・研究会発表や論文を読む際にかなり誤解されている部分があるため,P値について簡単に解説しておく.
P値はデータが特定の統計モデルにどの程度適合しないかを示すことができる.
(2) P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
P値は,研究仮説が真である確率あるいはデータがランダムな偶然によってのみデータが得られる確率を示さない.
(3) Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
科学的な結論とビジネスや政策の意思決定が,P値が特定の閾値を超えるかどうかのみにに基づいてなされるべきではない.
(4) Proper inference requires full reporting and transparency.
適切な推論は,完全な報告と透明性を必要とする.
(5) A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
P値もしくは統計学的有意性は,効果の大きさや結果の重要性を測るものではない.
(6) By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
P値そのもののみでモデルや仮説に関するエビデンスの良好な尺度は得られない.
1.統計学的有意性を論じる際のP値とは?
■比較統計においては帰無仮説を理解しておく必要がある.帰無仮説は比較統計の共通の原則である.薬剤Aと薬剤Bの有効性に差があると感じていても,その差は偶然かもしれない.この差を論じるにあたり,2種類の仮説が成り立つ.「差がある」とする仮説と「差がない=同じ」とする仮説である.差があることを統計学的に証明するならば,どの程度の差があればよいかを規定する必要があるが,未知であるはずの差を事前に規定している時点でバイアスが入ってしまうことになる.よって,差を証明したい場合,仮説は「同じ」と設定することになる.この仮説を帰無仮説(null hypothesis)と呼ぶ.よって,薬剤Aが薬剤Bより有効性が高いことを示すのであれば,「薬剤Aと薬剤Bの有効性は等しい」という前提=帰無仮説のもとに統計解析を行い,統計学的な有意差がみられたら,「薬剤Aと薬剤Bの有効性が等しいとする帰無仮説が棄却された」ということになる.
■コインを投げたところ6回以上連続で表か裏しかでない確率はいくらであろうか?確率の答えは2×(1/2)^6=1/32=0.03125(3.125%)以下であり,この確率0.03125はP値(P-value)である.コイン投げで表と裏の出る確率はそれぞれ50%と等しく,結果が正しく記録されることが100%確実とする前提が必要であり,P値がいかに小さくとも,帰無仮説が真であることは100%確実であることを意味する.一方,手品等でコインに何らかのトリックがある場合,これらの前提は成り立たない,すなわち,帰無仮説が偽であることが100%確実な可能性がある.つまり,P値が小さいということの解釈は前提となる科学的内容に依存する.
■ある症状Xを有する患者を,薬剤A投与群とプラセボ投与群に無作為に割り付けた比較試験を行い,薬剤A投与群の症状改善率は60%,プラセボ投与群の改善率は40%,P値が0.01であったとする.この結果をどう解釈するか?P値を解釈する場合,帰無仮説を定義する必要がある.この研究では,「薬剤Aとプラセボの症状改善効果が同等であり,改善率の差は偶然の結果である」という帰無仮説になる.この帰無仮説が真であるとすれば,「ランダムなサンプリングがこの研究でプラセボ対照群で観察されたのと同程度以上の改善率の差を生じる確率はどの程度か?」を表したのがP値である.
2.P<0.05による解釈の功罪
■P値0.05をカットオフとしてその結果を二値的に判断することはデメリットも大きい.そういう意味では今回の米国統計学学会の声明は大いに納得できるものであるが,同時に,カットオフがないことによるデメリットも存在するため,非常に難しい問題である.
■研究においては,P値がいくら以下であれば差が偶然でないかをあらかじめ設定しておく必要がある.この閾値が有意水準(significance level)αである.もし,有意水準を0.05に設定していた場合,P値が0.01であれば0.05より小さいため,統計学的に有意であることになる.つまり,薬剤Aとプラセボの改善率の差は偶然ではないであろうということになり,帰無仮説は棄却される.しかし,この結論はあくまでも有意水準を0.05と設定した場合であることに注意されたい.現在ほとんどの研究において有意水準は0.05とされているが,この0.05という数値はRonald Fisherから始まった単なる慣習でしかないことを知っておくべきであり,0.05という数値に特別の意味をこめてP値を眺めることは避けるべきである.
■有意水準を0.05に設定した場合,p=0.049ならば統計学的な有意差を示し,p=0.051ならば統計学的有意差は示されない.しかし,p=0.049とp=0.051の間に実際には大きな差はない.つまり統計学的有意性は0.05という慣習に基づいた恣意的解釈に過ぎないことを理解しておかなければならない.P値が有意水準近辺にある場合,差があるかないかの2択ではなく,中間のカテゴリーとして「結論できない」を加えた3択にするとよいが,このアプローチは必ずしも一般的ではない.
■もちろん有意水準を非常に小さい値に設定すれば,結果が統計学的に有意であると誤る確率は低くなる(第1種の過誤が少なくなる)が,有意差を見逃す確率は高くなる(第2種の過誤の確率が高くなる).つまり,その差が偶然に得られたものでないという信頼性が増すぶん,差の感度が落ちることになる.逆に有意水準を大きい値に設定すれば,差の感度は増すが,信頼性は落ちる.これらの両方のデメリットを少なくする唯一の手段はサンプル数を増やすことである.このように,研究の際は第1種・第2種の過誤のバランスを見て有意水準を適切な値に変更するべきであるが,実際にはほぼすべての研究において0.05に設定されている.
■また,P値が0.05より大きければ統計学的に有意差はないと解釈されるが,これは「差がない」ことを意味しないことに注意が必要である.この場合,実際のデータを見て絶対的差がどれくらいあるかを判断する必要があり,統計学的有意差がなくても臨床的には有意な数字であることも多い.たとえばあるRCTにおいて死亡率が介入群21%,対照群15%,P=0.15であった場合,統計学的有意差はないが,安全と言えるだろうか?6%の絶対差は無視できず,臨床的には有意な差とも言える.
■ランダムデータを解析する場合は,平均的に20の比較のうち1つは偶然が生じる,すなわち,偶然P値が0.05を下回る可能性がある.よって,比較を行う際にあまりに多数のアウトカムで検定を行っている場合,誤った有意性を拾い上げてしまうリスクがある.このため,あらかじめ研究前に検定を行うアウトカム(特にprimary outcome)が設定されているかが重要となる.これは前向き研究の方が信頼性が高まる理由の1つでもある.
■多数のアウトカムを比較してしまう多重比較については,過去にも教訓的な報告がある.カナダのオンタリオ州の住民1000万人のデータベース解析で,223の異なる入院理由と各患者の星座について調べたところ,72の疾患が特定の星座の患者群で統計学的に有意に多かった(p<0.05).これは偶然か否か?223の異なる入院理由について星座(12種類)で調べたとなると,223×12=2676の比較が行われることになる.有意水準を0.05と設定した場合,2676×0.05=134の疾患において特定の星座が偶然多くなる可能性があり,実際に多かったとされる疾患数が72であることを考えると,これは偶然の範疇となる.
■結果のP値が0.04~0.05の論文の数と0.05~0.06の論文の数は等しいはずであるが,実際に調べてみると0.04~0.05の論文が0.05~0.06の論文より5倍多いとの報告がある(BMJ 2006; 333: 231-4).これには,P値が0.05を下回らなければ論文として発表しない(publish bias),P値を0.05より小さくするためのトリックを用いている,などの理由が挙げられる.
■このようにP値が0.05に固定化されているがゆえの弊害は多い.確かに論文を読む際はP値にこだわらずデータをより深く見て解釈する必要があるのは事実である.しかし,この有意水準で意思決定をする,結論をだす,というルールがなくなった場合に想定される混乱もかなり大きいと思われる.統計的に得られたデータは連続的であり,本来ならその解釈もある程度連続性をもつのが理想ではあるが,どこかで一定の決定ラインがなければその解釈は難解かつ不均一となるため,統一された品質管理は困難となりやすい.もしこれまで有意水準0.05がなければ,今頃は効くかどうかも分からない薬剤がより多く承認されてしまっていたかもしれない.ガイドライン作成においてもその意思決定はより困難を極めるであろう.このように有意水準0.05がある一定の医療水準維持に貢献してきたこともまた事実である.
■P<0.05の代わりとなる指標はあるのか?本学会声明においてはP値に依拠しない新たなアプローチの例として,予測値を重視するアプローチ,ベイジアンモデリング,決定理論的アプローチ,false discovery rate等を用いるべきとしている.
※このあたりは私もまだよく分かりません