「ほっ」と。キャンペーン
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.Stop Sepsis, Save Lives.

χ2乗検定とFisher正確確率検定 ~χ2乗検定の不適切使用をしていませんか?~

解析例
ある疾患に罹患した患者45例において薬剤Aを投与したA群25例と薬剤Bを投与したB群20例を比較したところ,死亡数はA群で1例(4%),B群で5例(25%)であった.χ2乗検定を行うと,p=0.039であり,この疾患に対する薬剤A投与は薬剤B投与よりも統計学的に有意に死亡率が低かった.薬剤Aは薬剤Bより有用である可能性がある.
■このような報告は研究会や講演会でよく見かけるが,はたしてこの統計手法は適切であろうか?実はこの事例は統計学的には有意ではないと考えるべきである.

■χ2乗検定(正確にはχ2乗適合度検定;chi-square goodness-of-fit test)は,それぞれの(カテゴリー)群で実際に観察された対象数と期待される対象数を比較する.上記解析例では,観察された対象数は以下の通りである.
e0255123_13271932.png
これに対して期待数を算出する必要がある.全体の45例のうち死亡例は6例であることから,A群,B群とも期待される死亡率は6/45でなければならない.よって,A群25例のうち死亡者の期待数は25×6/45=3.3333となる.このような手法で以下のような期待数の表が作成できる.
e0255123_13273154.png
χ2乗検定は,実際の観察数と期待数の差を統合し,その差が生じうる確率としてp値を算出する.つまり,偶然を超える何らかの要因(この場合薬剤Aの薬効の強さ)がA群とB群の死亡率の差を説明しなければならない.

■このχ2乗検定はExcelでも可能な非常に便利な検定方法であり,研究会や学会等の発表で多用されているが,非常に誤用が多い.χ2乗検定はいくつかの近似値に基づくものであり,すべての期待数が大きい場合にのみ正確であることに注意が必要である

■サンプル数(全体のN数)が小さいとき,期待数が5未満のマスがでてくる.このような場合,得られる解析結果は不正確ではないかと疑問視される.これはCochran’s rule(コクラン・ルール)[1]と呼ばれる.具体的には,期待数のマス目のうち20%以上で期待数が5未満のマスがあるとχ2乗検定を用いてはならないというものである.2×2のχ2検定においては4マスのうち1マス(25%)でも期待数5未満があればその時点で「20%以上が5未満」を満たしてしまうためχ2乗検定を用いることは不適切となる.特に2×2のχ2検定ではすべての期待数が10以上であることが望ましい[2].SPSSで解析を行う場合は,χ2乗検定が不適切であれば表示で教えてくれるが,EXCELやいくつかの解析ソフトでは不適切であることを教えてくれない.このため,χ2乗検定を用いることが妥当であるかを判断するため,必ず期待数表を確認する必要がある.

■基本的にはサンプル数が20以下であればχ2乗検定はまず不適切となる.サンプル数が20を超えていてもかなりの頻度で不適切となりやすく,すべての期待数が10以上を目指すのであればサンプル数40以下ではまず望めない.基本的にはサンプル数100未満ではχ2乗検定は不適切となりやすいことを目安として知っておく必要がある.

■χ2乗検定が用いることができないのであればどうすればよいか.そこで出てくるのがFisher正確確率検定(Fisher's exact probability test)である.Fisherは有意水準としてp=0.05をカットオフとすることを最初に使用した人物として知られ,その後はこの0.05が慣習化されている(特に0.05に合理的根拠があったわけではない)[3].Fisher正確確率検定[4,5]は超幾何分布を利用したもので,χ2乗検定が不適切な事例において使用が推奨される.もっともχ2乗検定が可能な場合でもFisher正確確率検定を用いてもかまわない.

■Fisher正確確率検定の数式には階乗が用いられる.このため,EXCELで計算しようとするとコンピューターがオーバーフローしてしまうため,解析ソフトを使用した方がよい.もしEXCELで計算するのであれば,工夫が必要であり,これについては青木繁伸先生の紹介しているサイトが参考になる[6]

■さて,このFisher正確確率検定を用いて冒頭の解析例を解析しなおすと,p=0.074(使用解析ソフト:EXR[7])であり,統計学的には有意差はないことになり,結論までが変わってしまう(もっとも有意水準に必ずしもこだわらない方がいいという考え方もあるが).p値が0.05近傍の値(0.01-0.1)をとる際は統計学的有意差有無がχ2乗検定を用いるかFisher正確確率検定を用いるかで結果が変わってしまうため注意が必要である.学会や研究会の発表を見ていると,多くの発表がχ2乗検定を用いており,その中で明らかに不適切な使用をしているケースは非常に多い印象がある.

[1] Cochran WG. Some methods for strengthening the common x2 tests. Biometrics 1954; 10: 417-51
[2] Motulsky H. Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking, 2nd edition. 2010, 1995 by Oxford University Press, Inc
[3] Cowles M, Davis C. On the origins of the .05 level of statistical significance.
American Psychologist 1982; 37: 553-8
Hitchcock D. B. (2009)
[4] Fisher RA. On the interpretation of X2 from contingency tables, and the calculation of p. J R Stat Soc 1922; 85: 87-94.
[5] Hitchcock DB. Yates and Contingency Tables: 75 Years Later Electronic Journal for History of Probability and Statistics. 2009; 5: 1-14
[6] http://aoki2.si.gunma-u.ac.jp/lecture/Cross/fisher-calc.html
[7] Kanda Y. Investigation of the freely available easy-to-use software 'EZR' for medical statistics. Bone Marrow Transplant 2013: 48: 452-8
[PR]
by DrMagicianEARL | 2014-06-06 17:01 | 論文読み方,統計 | Comments(0)

by DrMagicianEARL