ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.Stop Sepsis, Save Lives.

カテゴリ:論文読み方,統計( 6 )

p<0.05時代はついに終焉か?米国統計学学会による声明

■米国統計学学会(the American statitional Association:ASA)がp値の適切な使用と解釈に基づく6原則による「統計学的有意性とp値に関する声明」を発表した.6原則は以下の通り.
(1) P-values can indicate how incompatible the data are with a specified statistical model.
P値はデータが特定の統計モデルにどの程度適合しないかを示すことができる.

(2) P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
P値は,研究仮説が真である確率あるいはデータがランダムな偶然によってのみデータが得られる確率を示さない.

(3) Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
科学的な結論とビジネスや政策の意思決定が,P値が特定の閾値を超えるかどうかのみにに基づいてなされるべきではない

(4) Proper inference requires full reporting and transparency.
適切な推論は,完全な報告と透明性を必要とする.

(5) A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
P値もしくは統計学的有意性は,効果の大きさや結果の重要性を測るものではない.

(6) By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
P値そのもののみでモデルや仮説に関するエビデンスの良好な尺度は得られない.
■まず,P値について,その解釈等は医療における学会・研究会発表や論文を読む際にかなり誤解されている部分があるため,P値について簡単に解説しておく.

1.統計学的有意性を論じる際のP値とは?

■比較統計においては帰無仮説を理解しておく必要がある.帰無仮説は比較統計の共通の原則である.薬剤Aと薬剤Bの有効性に差があると感じていても,その差は偶然かもしれない.この差を論じるにあたり,2種類の仮説が成り立つ.「差がある」とする仮説と「差がない=同じ」とする仮説である.差があることを統計学的に証明するならば,どの程度の差があればよいかを規定する必要があるが,未知であるはずの差を事前に規定している時点でバイアスが入ってしまうことになる.よって,差を証明したい場合,仮説は「同じ」と設定することになる.この仮説を帰無仮説(null hypothesis)と呼ぶ.よって,薬剤Aが薬剤Bより有効性が高いことを示すのであれば,「薬剤Aと薬剤Bの有効性は等しい」という前提=帰無仮説のもとに統計解析を行い,統計学的な有意差がみられたら,「薬剤Aと薬剤Bの有効性が等しいとする帰無仮説が棄却された」ということになる.

■コインを投げたところ6回以上連続で表か裏しかでない確率はいくらであろうか?確率の答えは2×(1/2)^6=1/32=0.03125(3.125%)以下であり,この確率0.03125はP値(P-value)である.コイン投げで表と裏の出る確率はそれぞれ50%と等しく,結果が正しく記録されることが100%確実とする前提が必要であり,P値がいかに小さくとも,帰無仮説が真であることは100%確実であることを意味する.一方,手品等でコインに何らかのトリックがある場合,これらの前提は成り立たない,すなわち,帰無仮説が偽であることが100%確実な可能性がある.つまり,P値が小さいということの解釈は前提となる科学的内容に依存する.

■ある症状Xを有する患者を,薬剤A投与群とプラセボ投与群に無作為に割り付けた比較試験を行い,薬剤A投与群の症状改善率は60%,プラセボ投与群の改善率は40%,P値が0.01であったとする.この結果をどう解釈するか?P値を解釈する場合,帰無仮説を定義する必要がある.この研究では,「薬剤Aとプラセボの症状改善効果が同等であり,改善率の差は偶然の結果である」という帰無仮説になる.この帰無仮説が真であるとすれば,「ランダムなサンプリングがこの研究でプラセボ対照群で観察されたのと同程度以上の改善率の差を生じる確率はどの程度か?」を表したのがP値である.

2.P<0.05による解釈の功罪

■P値0.05をカットオフとしてその結果を二値的に判断することはデメリットも大きい.そういう意味では今回の米国統計学学会の声明は大いに納得できるものであるが,同時に,カットオフがないことによるデメリットも存在するため,非常に難しい問題である.

■研究においては,P値がいくら以下であれば差が偶然でないかをあらかじめ設定しておく必要がある.この閾値が有意水準(significance level)αである.もし,有意水準を0.05に設定していた場合,P値が0.01であれば0.05より小さいため,統計学的に有意であることになる.つまり,薬剤Aとプラセボの改善率の差は偶然ではないであろうということになり,帰無仮説は棄却される.しかし,この結論はあくまでも有意水準を0.05と設定した場合であることに注意されたい.現在ほとんどの研究において有意水準は0.05とされているが,この0.05という数値はRonald Fisherから始まった単なる慣習でしかないことを知っておくべきであり,0.05という数値に特別の意味をこめてP値を眺めることは避けるべきである

■有意水準を0.05に設定した場合,p=0.049ならば統計学的な有意差を示し,p=0.051ならば統計学的有意差は示されない.しかし,p=0.049とp=0.051の間に実際には大きな差はない.つまり統計学的有意性は0.05という慣習に基づいた恣意的解釈に過ぎないことを理解しておかなければならない.P値が有意水準近辺にある場合,差があるかないかの2択ではなく,中間のカテゴリーとして「結論できない」を加えた3択にするとよいが,このアプローチは必ずしも一般的ではない.

■もちろん有意水準を非常に小さい値に設定すれば,結果が統計学的に有意であると誤る確率は低くなる(第1種の過誤が少なくなる)が,有意差を見逃す確率は高くなる(第2種の過誤の確率が高くなる).つまり,その差が偶然に得られたものでないという信頼性が増すぶん,差の感度が落ちることになる.逆に有意水準を大きい値に設定すれば,差の感度は増すが,信頼性は落ちる.これらの両方のデメリットを少なくする唯一の手段はサンプル数を増やすことである.このように,研究の際は第1種・第2種の過誤のバランスを見て有意水準を適切な値に変更するべきであるが,実際にはほぼすべての研究において0.05に設定されている.

■また,P値が0.05より大きければ統計学的に有意差はないと解釈されるが,これは「差がない」ことを意味しないことに注意が必要である.この場合,実際のデータを見て絶対的差がどれくらいあるかを判断する必要があり,統計学的有意差がなくても臨床的には有意な数字であることも多い.たとえばあるRCTにおいて死亡率が介入群21%,対照群15%,P=0.15であった場合,統計学的有意差はないが,安全と言えるだろうか?6%の絶対差は無視できず,臨床的には有意な差とも言える.

■ランダムデータを解析する場合は,平均的に20の比較のうち1つは偶然が生じる,すなわち,偶然P値が0.05を下回る可能性がある.よって,比較を行う際にあまりに多数のアウトカムで検定を行っている場合,誤った有意性を拾い上げてしまうリスクがある.このため,あらかじめ研究前に検定を行うアウトカム(特にprimary outcome)が設定されているかが重要となる.これは前向き研究の方が信頼性が高まる理由の1つでもある.

■多数のアウトカムを比較してしまう多重比較については,過去にも教訓的な報告がある.カナダのオンタリオ州の住民1000万人のデータベース解析で,223の異なる入院理由と各患者の星座について調べたところ,72の疾患が特定の星座の患者群で統計学的に有意に多かった(p<0.05).これは偶然か否か?223の異なる入院理由について星座(12種類)で調べたとなると,223×12=2676の比較が行われることになる.有意水準を0.05と設定した場合,2676×0.05=134の疾患において特定の星座が偶然多くなる可能性があり,実際に多かったとされる疾患数が72であることを考えると,これは偶然の範疇となる.

■結果のP値が0.04~0.05の論文の数と0.05~0.06の論文の数は等しいはずであるが,実際に調べてみると0.04~0.05の論文が0.05~0.06の論文より5倍多いとの報告がある(BMJ 2006; 333: 231-4).これには,P値が0.05を下回らなければ論文として発表しない(publish bias),P値を0.05より小さくするためのトリックを用いている,などの理由が挙げられる.

■このようにP値が0.05に固定化されているがゆえの弊害は多い.確かに論文を読む際はP値にこだわらずデータをより深く見て解釈する必要があるのは事実である.しかし,この有意水準で意思決定をする,結論をだす,というルールがなくなった場合に想定される混乱もかなり大きいと思われる.統計的に得られたデータは連続的であり,本来ならその解釈もある程度連続性をもつのが理想ではあるが,どこかで一定の決定ラインがなければその解釈は難解かつ不均一となるため,統一された品質管理は困難となりやすい.もしこれまで有意水準0.05がなければ,今頃は効くかどうかも分からない薬剤がより多く承認されてしまっていたかもしれない.ガイドライン作成においてもその意思決定はより困難を極めるであろう.このように有意水準0.05がある一定の医療水準維持に貢献してきたこともまた事実である.

■P<0.05の代わりとなる指標はあるのか?本学会声明においてはP値に依拠しない新たなアプローチの例として,予測値を重視するアプローチ,ベイジアンモデリング,決定理論的アプローチ,false discovery rate等を用いるべきとしている.
※このあたりは私もまだよく分かりません
[PR]
by DrMagicianEARL | 2016-03-09 14:16 | 論文読み方,統計 | Comments(0)
■非常に精度が高いことで有名なコクランのメタ解析と,コクランでないメタ解析とでどれくらいの違いがあるのかについて調べた研究を紹介します.まあこの研究結果をあえて変なメタ解析を多数掲載しているPLoS One誌に投稿したというのは皮肉的な何かあるのかなと勝手に思ってしまいましたが・・・.結果としては,コクランでないメタ解析の方が精度が低く,効果量が大きくなる傾向があるようです.そして他論文に引用される際も効果量が大きい方のメタ解析が引用されるようで,ここで二重のバイアスが生じることになります.

■ひとつのトピックに関してメタ解析が複数出ていることは珍しくありませんが,各メタ解析ごとに登録している研究やメタ解析結果がかなり異なっていることも多いです.システマティックレビューやメタ解析といえどもかなりのバイアスがあると思った方がいいでしょう.たとえコクランといえどもたまになんでこんなメタ解析になってるのか疑問に思うこともあります.

■私自身現在ガイドライン作成過程でメタ解析を行っていますが,どの研究をincludeするかの過程,エビデンス総体評価の過程,どうしても主観に頼る作業が入ります.このため,メタ解析メンバー間でもかなり意見の相違が生じ議論になります.こういう作業をやっていると複数のメタ解析がでても内容がバラバラになることはおおいにありえるんだなと痛感します.

■なお,システマティックレビュー/メタ解析がどの程度の質なのかの評価方法としてAMSTARというものがありますので活用してみてください.以下の紹介文献の下に掲載しています.
同一トピックにおけるコクランと非コクランのメタ解析間での系統的違い:ペアマッチ解析
Useem J, Brennan A, LaValley M, et al. Systematic Differences between Cochrane and Non-Cochrane Meta-Analyses on the Same Topic: A Matched Pair Analysis. PLoS One. 2015 Dec 15;10(12):e0144980
PMID:26671213

Abstract
【背 景】
Cochrane Collaborationによるメタ解析は,厳格な方法論と,バイアスを最小化し透明性/再現性を最大化し,集計データの精度を向上させることを目的とした報告基準を遵守して行われる.このメタ解析結果が,同一トピックにおいてCochrane Collaboration以外で行われたメタ解析での報告結果と違いが生じるか否かについては未解決の問題である.

【方 法】
我々は解析の単位として,各メタ解析につきCochraneレビューと非Cochraneレビューを比較するペアマッチ解析を行った.心血管領域の文献のメタ解析を用いて,介入とアウトカムについてマッチしたペアを抽出した.ペアは,Cochraneと非Cochraneのレビュー間での結果の不一致がどの程度か,効果量と統計精度が体系的に異なっているか否か,これらの違いがどのようにレビューの二次引用頻度に関連しているかについて比較した.

【結 果】
我々の検索で40のマッチしたレビューのペアが得られた.2つのセットで,いずれが最初に出版したか,登録した研究数,平均サンプルサイズについては同等であった.レビューのペアは計344の臨床試験が含まれており,111研究(32.3%)はCochraneレビューのみで登録されており,104研究(30.2%)は非Cochraneレビューのみであり,129研究(37.5%)は両方に含まれていた.言い方を変えると,研究の62.5%は1つもしくは他のメタ解析論文にのみ含まれていた.全体を通して,ペアの37.5%は結果が矛盾していた.結果が異なる統計的な解釈が生じた95%信頼区間の幅において矛盾が最も多く生じていた(7ペア).加えて,20%が,集計した効果量の方向が異なっていたか(5ペア)効果量が2倍以上異なっていた(3ペア).非CochraneレビューはCochraneレビューに比して有意に高い効果量(p<0.001)と低い精度(p<0.001)であった.マッチしたペアよりも少なくとも2倍以上の効果量を報告しているレビューはより多く引用されていた.

【結 論】
トピックを合わせたCochraneと非Cochraneのレビューの結果は非常に類似していたものの,矛盾した結果が多く,登録された研究の重複が驚くほど少なかった.疑問の下での介入において異なる解釈が生じうる2つのタイプのレビュー間において,系統的な差や方法論に反している可能性を示している非CochraneレビューはCochraneレビューに比して低い精度で大きな効果量を報告していた.
AMSTAR(Assessment of Multiple Systematic Review)によるシステマティックレビュー/メタ解析の評価項目
・システマティックレビューのデザインは,システマティックレビュー施行前に決定されているか?(レビュー実施前に課題や登録基準が決定されている)
・2名以上で論文のチェックが行われているか?(2名の独立した担当者でデータ抽出が行われている,意見の不一致があった場合の合意到達手順が明確にされている)
・少なくとも2つ以上のデータベースを利用しているか?(検索を行った年およびデータベースが明記さており,2つ以上のDatabaseが使用されていなければならない.検索式・Key wordが明記,検索方法に説明されている.)
・論文の研究様式や報告様式に関係なく検索しているか?(未発表論文や学会発表の抄録,研究registrationも対象に検索していなければならない.)
・full text reviewの後に,登録および除外された論文がリストあるいはreferenceにしてあるか?
・登録された論文の詳細が報告されているか?(患者・介入・アウトカムなどの詳細が表などの形式で報告されている.)
・Risk of bias,Jadad scaleなどで各論文の質が評価してあるか?
・研究の質がシステマティックレビューの結論を提示する際に考慮されているか?
・異質性が評価され,異質性が高い場合にはRandom Effectが使用されているか?
・出版バイアスが評価されているか?(Funnel Plotなどを利用して評価する)
・COIが開示されているか?

AMSTARについては以下の文献を御参照ください(フリーで閲覧できます).
Shea BJ, Grimshaw JM, Wells GA, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007; 7: 10
Shea BJ, Bouter LM, Peterson J, et al. External validation of a measurement tool to assess systematic reviews (AMSTAR). PLoS One 2007; 2: e1350

[PR]
by DrMagicianEARL | 2016-01-25 17:19 | 論文読み方,統計 | Comments(0)
■本ブログを見てくださっている方からよく受ける質問が2つあります.「なぜブログをそんなに大量に書けるのか?」と「どうやって論文を読んでるのか?」です.

■前者についてはいつも「結婚してない(し彼女もいない)から」と答えてます.病院業務が終わってからブログ更新作業を行いますし,レビュー記事ともなれば数多くの論文をまとめることになるため何日もかけて書きます.そのぶん病院から家に帰るのも遅くなりますから家族ができたりしたらこんな頻度では更新はとてもできません(中には結婚されていてお子さんもたくさんいて,でも論文もばんばんだしてブログもやってる救急医の先生がおられますが,私にはそこまでのパワフルさはとてもありません).

■まあそれはいいとして,後者についてですが,私自身,論文の読み方を教わったこともありませんし,現在勤務している病院に抄読会もありません.すべて我流でやっています.なので参考になるか分かりませんし,もっといい方法もあると思いますが,私自身のやり方を以下に紹介します(ある特定のことについて論文を調べたい,ではなく新しくでてきた論文を日課として読んでいきたい場合のやり方です).習慣にしたいけど全然英語論文を読む気になれず,という方はこんなやり方でよければ.

1.英語論文にどうやって慣れるか
■研修医によく言ってますが,英語論文を読むのにベースの英語力はあまり関係ありません.大学入試の際ほとんどの勉強時間を数学に割いていた私は英語はからきしダメで,直前に詰め込みで勉強したとはいえセンター試験の英語は120点程度でした.英語論文読めないと言ってる研修医はみんなこの点数を超えてたんですよね.大学に入ってからも1~2年の教養課程以外で特に英語を勉強することもなく,教養課程も真面目にやってたわけでもなくで英語論文なんてとても読める状況じゃないまま大学を卒業し,今の病院に卒後臨床研修医として就職しました.

■研修医2年目の時に,レジデントも今の病院で残ることが決定してから英語論文を読むようになりました.マンパワーが少ない環境では自分で知識を蓄えて自分の身を守るしかないと思っていたからです.ただ,読み始めは大変でした.とにかく時間がかかる.分からない単語や文は翻訳サイトを頻回に使う,時には翻訳サイト使ってもさっぱり分からない部分がある,1個の論文読むのにいったい何日かかるのかと思ったくらいで,これではあまりにも効率が悪い.そこでやり始めたのが「Abstract読み」です.

■論文のAbstract(要約)は,その研究の内容(背景,目的,方法,結果,結論)がコンパクトにまとまっていて本文に比べて非常に短く,これなら息切れせず読んでいけます.本ブログでも論文はAbstractで紹介していますが,だいたいどの論文もこれくらいの長さです.最初は1日1Abstract読むと決めて始め,英語論文の決まった単語や言い回しなどが分かってくると辞書や翻訳サイトを使わず読めるようになりスピードが上がりますので,1日あたりに読むAbstractの数が徐々に増えていきました.慣れてくればAbstract1つにつきかかる時間は1~2分程度.それくらいに論文英語に慣れてくると本文の方もかなりのスピードで読めるようになります.何日もかかってたのが1日で,さらにはより短時間でざっと読めるようになります.もし内容がいまいちつかみづらいときは,背景と結論を先に読んじゃいましょう.何の研究かがあらかじめつかみやすくなり,Abstractが読みやすくなります.

■Abstractの読みやすさも,英語文化の違いやネイティブか否か等もあって執筆者によって様々で,論文によっては非常に分かりにくい表現や単語を用いているケースもあります.非常にシンプルでまわりくどい表現も少ないAbstractとしては医学では最も権威ある雑誌「the New England Journal of Medicine」(通称NEJM誌)がおすすめです.この雑誌の原著論文のAbstractは非常に読みやすいのが特徴です.たとえばまわりくどい論文のAbstractの背景は日本語にするとこんな感じです.
【背景】Aは死亡率の高い疾患であり,年々増加している.薬剤XはYを阻害することでBの治療に用いられているが,近年,Aに対しても有効性が示唆されているが,無作為化比較試験での検討はない.我々はAに対するBの有効性を検討した.
一方,NEJM誌だとこんな感じです.
【背景】Aに対するXを評価した無作為化比較試験はない.
同様に結論の方でも,まわりくどい論文Abstractは
【結論】Aに対するXはプラセボと比較して死亡率に統計学的有意差が見られなかったが,ICU在室期間は有意に短縮した.サブ解析では,より重症例でXにより死亡率が改善しており,さらなる検討が必要である.
一方,NEJM誌だと
【結論】XはAの死亡率を改善させなかった.
ちょっと極端な書き方ですが,こんな感じです.なので最初のうちはNEJM誌がスラスラ読みやすいと思います.

2.Abstract通読の利点と注意点
■英語論文に慣れるためにAbstractを使うやり方を紹介したわけですが,Abstractの使い方は様々です.Abstractは論文を読む上で,最初に概略として目を通す上で短くまとまっていて非常に便利です.その利点は単に内容の概略を把握するだけではありません.

(1) 論文の選択作業
当たり前のことではあるんですが,Abstractを速読できるようになれば,論文を選んで本文を読むという作業工程がルーチン化できるようになります.

(2) 本文重要ポイントの把握
本文を読みたいけど今時間がない,とりあえず今はざっとだけ,という時にはAbstractを速読して本文の重要であろう部分を推測し,そこだけピンポイントで選んで読めます.

(3) トレンドがつかめる
日課でAbstractをたくさん読めば読むほど,それだけ今どのような研究がトレンドなのか,どんな研究デザインだとどのような結果になりやすいか,どの国が(もしくは特定の研究者が)特にその研究をやっているか,などが分かってきます.Abstractのbackground(背景)の部分にも書いてありますし,同系統の研究のAbstractを複数読むだけでもだいぶとトレンドが分かってきます.

(4) 学会抄録の書き方の参考になる
学会発表の際,締切がせまってるけど抄録がなかなかうまく書けない,なんて経験があるかもしれません.限られた字数で極力余計な情報を省き,重要ポイントをおさえてシンプルに提示するわけで,これはアピールポイントです.逆に言えば書き方しだいではいい研究でも非採択になりかねません.字数の違いはあれど,査読を経て一流雑誌に掲載される論文のAbstractは構成がよくできていて,抄録を書く際の参考になります.できれば,本文とAbstractを比べてみて,どう抽出しているのか調べてみてもいいかもしれません.

■一方,Abstractで注意すべきは,それだけで論文の中身が分かったようになってはいけないことです.Abstractには考察がないことはもちろん,バイアスを含め,その論文の問題点を抽出するにはAbstractは内容が少なすぎますし,Abstractには書かれていないデータも本文にはたくさんあります.やはりデータは研究の命であり,そこに目を通さないと吟味できません.時には本文を見るとAbstractとずいぶんと内容が違う,なんて罠もあります.

3.読む雑誌を決めてAbstract通読
■医学雑誌のほとんどが登録されているPubMedという検索エンジンがあります(http://www.ncbi.nlm.nih.gov/pubmed).誰でも無料でアクセス可能です.この検索欄に「雑誌の略称[jo]」を入力して検索ボタンを押すとその雑誌に登録されている論文がすべて出てきます(マイナー雑誌ではすべてが登録されているとは限りません).さらに,「(雑誌Aの略称[jo]) OR (雑誌Bの略称[jo]) OR ...」というように複数の雑誌の略称名をORでつなげていくと,それらの雑誌に掲載されている論文が新しいものからすべて出てきます.ただし,中にはletter to editor等,Abstractがない論文も含まれますので,最後に「AND hasabstract」をつけておくと,Abstract付きの論文だけが抽出されます.

■読む雑誌ですが,ノンジャンルの雑誌であれば以下の世界5大ジャーナルと呼ばれる5誌がおすすめです.英語に慣れると同時にとりわけインパクトの高い最新研究結果を知ることができます.
・the New England Journal of Medicine:PubMed略称「N Engl J Med」,略称「NEJM」
・the Lancet:PubMed略称「Lancet」,略称「Ln」
・the British Medical Journal:PubMed略称「BMJ」,略称「BMJ」
・the Journal of the American Medical Association:PubMed略称「JAMA」,略称「JAMA」
・Annals of Internal Medicine:PubMed略称「Ann Intern Med」,略称「AnIM」

■さらに以下の2誌を加えれば7大ジャーナルです.
・JAMA Internal Medicine(旧Archives of Internal Medicine):PubMed略称「JAMA Intern Med」,略称「JAMAIM」
・Canadian Medical Association Journal:PubMed略称「CMAJ」,略称「CMAJ」

■以下はPubMed検索欄に入れる検索式です.
5大ジャーナルを検索する場合
((N Engl J Med[jo]) OR ("Lancet"[jo]) OR (BMJ[jo]) OR (JAMA[jo]) OR (Ann Intern Med[jo])) AND hasabstract

7大ジャーナルを検索する場合
((N Engl J Med[jo]) OR ("Lancet"[jo]) OR (BMJ[jo]) OR (JAMA[jo]) OR (Ann Intern Med[jo]) OR (JAMA Intern Med[jo]) OR (CMAJ[jo])) AND hasabstract
※今でもAbstract読み私はルーチンで読む雑誌を決めて(47雑誌),その雑誌名をまとめてPubMedの検索式に打ち込んでタイトルで読むものを選んでいき,Abstractを一気に通読しています.

■以下は私のルーチンカバー範囲になりますが,ルーチン読み雑誌の検索式を御紹介します.
救急集中治療系雑誌
(Crit Care Med[jo]) OR (Intensive Care Med[jo]) OR (Am J Respir Crit Care Med[jo]) OR (Chest[jo]) OR (Crit Care[jo]) OR (Crit Care Clin[jo]) OR (Shock[jo]) OR (Ann Intensive Care[jo]) OR (J Intensive Care Med[jo]) OR (J Emerg Nurs[jo]) OR (J Emerg Med[jo]) OR (Int J Emerg Med[jo]) OR (Am J Emerg Med[jo]) OR (Eur J Emerg Med[jo]) OR (Crit Care Nurse[jo]) OR (Ann Emerg Med[jo]) OR (J Crit Care[jo]) OR (Crit Care Res Pract[jo]) OR (Crit Care Resusc[jo]) OR (Anaesth Intensive Care[jo]) OR (Anaesthesiol Intensive Ther[jo]) OR (Anesth Analg[jo]) OR (Am J Crit Care[jo]) OR (Acta Anaesthesiol Scand[jo]) AND hasabstract
感染症/感染制御系雑誌
((Antimicrob Agents Chemother[jo]) OR (J Antimicrob Chemother[jo]) OR (Clin Infect Dis[jo]) OR (Lancet Infect Dis[jo]) OR (Clin Microbiol infect[jo]) OR (Int J Antimicrob Agents[jo]) OR (Antimicrob Resist Infect Control[jo]) OR (J Infect[jo]) OR (Infection[jo]) OR (Eur J Clin Microbiol[jo]) OR (Am J Infect Control[jo]) OR (Diagn Microbiol Infect Dis[jo]) OR (J Hosp Infect[jo]) OR (Epidemiol Infect[jo]) OR (Infect Control Hosp Epidemiol[jo])) AND hasabstract

[PR]
by DrMagicianEARL | 2016-01-04 21:34 | 論文読み方,統計 | Comments(0)
■近年,propensity scoreを用いた解析が非常に流行しており,「観察研究をRCTっぽくする解析」「疑似RCT」などの表現でよく紹介されています.最近,PubMedにおいても,Article typeをRCTにすると,propensity scoreの解析を用いた観察研究までヒットするようになりました.しかし,この解析方法はそんな簡単なものではなく,解釈にかなり注意を要するもので,一部は不適切な乱用ではないかと疑うような報告もあり,私はかなりこの解析を用いた研究には慎重になるべきだと考えています.観察研究はGRADEシステムでいけばエビデンスのベースの質はCであり,よいデザインであればBに上がるわけですが,はたしてpropensity scoreを用いた研究はBになりうるのか?については私はまだ懐疑的です.使うならば「統計に詳しい医師」ではなくちゃんと統計学の専門家に相談するべきだと思います.

■敗血症領域では,日本集中治療医学会が敗血症Registryデータを用いてpropensity scoreの解析を行っています.また,DPCデータを用いたpropensity scoreの解析の報告も散見されるようになりました.これらのような報告を慎重に見るべき,とする論文がでていましたので紹介するとともに,propensity scoreについて少しまとめてみました.
敗血症領域において,propensity score解析を用いた観察研究は無作為化比較試験の結果と合致するか?
Zhang Z, Ni H, Xu X. Do the observational studies using propensity score analysis agree with randomized controlled trials in the area of sepsis? J Crit Care. 2014 Oct; 29(5): 886.e9-15
PMID:24996762

Abstract
【背 景】
敗血症は集中治療室における死亡や罹患の主要因であり,多くの研究がそのアウトカムを改善する目的で行われている.この目的のため,無作為化比較試験(RCT)やpropensity score(PS)法を用いた観察研究が一般的に用いられている.しかし,これらの2つの主要な方法論的デザインの合致はこの特異的領域ではまだ検討されていない.

【目 的】
本研究の目的は,RCTとPSによる研究とでの効果量の比較を行うことである.

【方 法】
敗血症領域において,PubMed,Scopus,EBSCOを含む電子データベースからPSを用いた研究を検索した.これらの研究を,集団,介入,対照,アウトカムの単語でRCTまたはシステマティックレビューやメタ解析とマッチさせた.1領域について複数のPSによる研究とRCTが存在する場合は,効果量を,変量効果モデルと逆分散法を用いて蓄積した.

【結 果】
RCTとPSを用いた研究のマッチしたペアが少なくとも1つ存在するという基準を満たしたものが全部で8つのトピックスで検出された.介入は,活性化プロテインC,低用量ステロイド,アンチトロンビンⅢ,抗菌薬併用療法,魚油製剤,スタチン,挿管時のエトミデート,遺伝子組換えヒト可溶性トロンボモデュリンが含まれた.効果量はほとんどのトピックス(6/8)でRCTとPSを用いた研究で統計学的有意差がみられた.効果量の蓄積された平均差は-0.16(95%CI -0.33 to 0.01)であり,RCTよりもPSを用いた研究の方が治療効果が大きくなる傾向がみられた.本結果はサンプルサイズの大きいRCTとPSを用いた研究に限定しても不変であった.

【結 論】
我々の研究から,敗血症領域において,有効性試験の差によりPSを用いた研究がRCTよりも大きな治療効果を報告している傾向が示唆された.
■観察研究とRCTの結果が乖離することはよく見られることであり[1],たとえPSを解析に用いた研究であっても,その効果量はRCTと異なることを示している.この研究の他にも,集中治療領域全体[2],急性冠症候群[3]の研究においてもPSを用いた研究とRCTには乖離がみられるとの結果が報告されている.

■もっとも,RCTは事前に決められた患者登録基準,除外基準によって選択された集団を対象としており,観察研究はそのような厳しい選択がない,リアルワールドなデータをもとに解析を行うため,治療介入を行う医師自身の判断がより効果が得られやすいであろう患者を意図的に選択している可能性もあるため,観察研究とRCTとで効果量に差がでることはある意味当たり前のこと,と考えることもできる.ただし,PSを用いた解析はそう単純なものではないことを知っておかなければならない.「RCTっぽくする解析方法」という響きのいいフレーズの下で流行りの解析方法ではあるが,使い方を誤ると不適切となり兼ねない諸刃の剣である.

1.propensity score matching解析とは?
■特定の治療介入を行うか否かは患者の状態,あるいは医師によって判断が異なることがある.通常の後ろ向き観察研究ではこのバイアスが大きくかかわり,単純に介入群と非介入群で効果を直接比較しても得られる結果から導き出される結論は妥当性に欠ける.そこで背景因子を調整した多変量解析が行われるが,説明変数(背景因子)が研究者によって恣意的に決定されるためバイアスリスクが除かれるわけではない.この後ろ向き観察研究のバイアスリスクをより除く手段としてpropensity score(以下PS)を用いた解析が行われるようになった.

■PSは日本語では傾向スコアなどと訳され,特定の治療介入が行われる傾向を見たものである[4].すなわち,患者の背景因子をもとに,特定の治療介入が行われる確率(割り付け確率)を多重ロジスティック解析を用いて算出したスコアである.当然ながら確率であるため,PSは0から1までの値をとる.RCTの割り付け確率は真のPSであるが,観察研究ではこの割り付け確率を共変量(背景因子)から推定していくことになる.そこで,PS(特定の治療介入を受ける確率)が同じ2人の患者がいて,片方がその治療を受け,もう片方が治療を受けていないならば,片方を治療群,片方を対照群としてペアをつくり(マッチング),この2人がランダムに両群に割り付けられたと仮定して比較を行う.これがPS matching解析であり,「擬似RCT」「観察研究をRCTっぽくする解析」と言われる理由である.

■このようにRCTを行うことが倫理的に困難で観察研究を余儀なくされるとき,問題となる治療選択バイアスを軽減する上でPSは非常に有用である.ただし,PSを用いた解析結果に妥当性を持たせるためにはいくつもの問題点をクリアせねばならず,そう簡単に使える解析手法ではない[5]

2.propensity scoreの問題点

(1) できる限り多くの共変量を組み込まなければならない

■PS解析を行う上で重要なのは,交絡因子をすべて考慮することが目標となる.すなわち,治療法の選択に関連するすべての要因を共変量として組み込む必要があり,十分多くの変数をモデルに取り込まなければならない.もし共変量が少なければそこには「共変量を研究者が自分の都合のいい結果となるように選択した可能性」という恣意性のバイアスが生じてくる.よって,どこまでデータが揃っているかが重要となってくるため,欠測値が多いデータベースでは不利となる.PS解析の研究結果を見るときは,必ず共変量に目を通し,妥当性を検討すべきである.

■国全体規模での大規模データベースでPSを用いた解析が行われることがある.これは生活習慣病等の慢性疾患や急性期加療後の長期的な薬剤投与followなどでよく用いられている.近年,集中治療領域において日本からDPCデータのPSを用いた解析が報告されるようになったが,ここは注意が必要である.DPCデータは詳細な検査値や重症度は不明であること,アップコーディング(たとえばDICでないのにDIC病名がついているなど)を除外できないこと,no CPRとなった症例を除外できないことはかなり大きなlimitationであると思われる.また,PSでの共変量はDPCの性質上,すべて0か1の2つの値のみであり連続変数ではない.そもそもPSは前述の通り,治療介入の選択に関連する変数をできる限り多く組み込む必要があるが,DPCデータから得られる変数では不十分である.集中治療領域は慢性疾患とは異なり来院時のデータの連続変数で大きく治療方針や予後が変わるため,ここを考慮せずの解析データではいかにサンプル数が多くても妥当な結論は得られないのではないかと思われる.

(2) サンプル数が大きく削ぎ落とされてしまう

■特定の治療の介入群と非介入群の偏りが大きいと,PSでマッチするペアの数が極端に少なくなってしまい,研究の妥当性が落ちてしまう(少ない方の患者群に合わせてマッチングが行われるためどうしても検定する際の症例数が少なくなる).実際に集中治療領域でPS matching解析を用いた研究のほとんどが1/3~1/10にまでサンプル数が削ぎ落とされている.当然,研究全体のサンプル数が少なければそれだけマッチするペアは少なくなりやすい.

(3) マッチングされた患者集団は母集団を反映するか?

■PS matchingでは患者背景がどちらかの群に偏ってしまう.このため,得られた結果を本来の治療効果を検討したい母集団全体に本当に適応できるのかという問題点を有する.例えば,治療を行わなかった群に合わせたマッチングを行った場合,治療を受けなさそうな患者群での治療効果が判定されることになる.よって,解析前の介入群と非介入群のそれぞれのサンプル数の影響は免れない.

3.問題点をなんとかして解消する方法はないか?

■共変量の数が不十分である場合,サンプル数が非常に少ない場合はそもそもPS解析は行うべきではないと思われる.サンプル数の削ぎ落としをなくしたい,偏りをできるかぎりなくしたいという場合は(なぜか医療系論文ではまだほとんど用いられていないようであるが)PSの逆数の値を用いてその患者の予後に与える影響度に重み付けをして解析を行うIPTW法(inverse probability of treatment weighting)[6]という方法が提唱されており(周辺構造モデル(marginal structral model)とも呼ぶ),PS matching法よりもIPTW法の方が解析が簡単で、患者背景の調整もよりうまく行えると認識されている.

[1] Anglemyer A, Horvath HT, Bero L. Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials. Cochrane Database Syst Rev 2014; 4: MR000034
[2] Zhang Z, Ni H, Xu X. Observational studies using propensity score analysis underestimated the effect sizes in critical care medicine. J Clin Epidemiol 2014; 67: 932-9
[3] Dahabreh IJ, Sheldrick RC, Paulus JK, et al. Do observational studies using propensity score methods agree with randomized trials? A systematic comparison of studies on acute coronary syndromes. Eur Heart J 2012; 33: 1893-901
[4] Rousenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983; 70: 41-55
[5] Rubin D. Estimating causal effects from large data sets using propensity scores. Ann Internal Med 1997; 127: 757–63
[6] Austin PC. The performance of different propensity score methods for estimating marginal hazard ratios. Stat Med 2013; 32: 2837-49
[PR]
by DrMagicianEARL | 2015-04-03 18:42 | 論文読み方,統計 | Comments(3)
解析例
ある疾患に罹患した患者45例において薬剤Aを投与したA群25例と薬剤Bを投与したB群20例を比較したところ,死亡数はA群で1例(4%),B群で5例(25%)であった.χ2乗検定を行うと,p=0.039であり,この疾患に対する薬剤A投与は薬剤B投与よりも統計学的に有意に死亡率が低かった.薬剤Aは薬剤Bより有用である可能性がある.
■このような報告は研究会や講演会でよく見かけるが,はたしてこの統計手法は適切であろうか?実はこの事例は統計学的には有意ではないと考えるべきである.

■χ2乗検定(正確にはχ2乗適合度検定;chi-square goodness-of-fit test)は,それぞれの(カテゴリー)群で実際に観察された対象数と期待される対象数を比較する.上記解析例では,観察された対象数は以下の通りである.
e0255123_13271932.png
これに対して期待数を算出する必要がある.全体の45例のうち死亡例は6例であることから,A群,B群とも期待される死亡率は6/45でなければならない.よって,A群25例のうち死亡者の期待数は25×6/45=3.3333となる.このような手法で以下のような期待数の表が作成できる.
e0255123_13273154.png
χ2乗検定は,実際の観察数と期待数の差を統合し,その差が生じうる確率としてp値を算出する.つまり,偶然を超える何らかの要因(この場合薬剤Aの薬効の強さ)がA群とB群の死亡率の差を説明しなければならない.

■このχ2乗検定はExcelでも可能な非常に便利な検定方法であり,研究会や学会等の発表で多用されているが,非常に誤用が多い.χ2乗検定はいくつかの近似値に基づくものであり,すべての期待数が大きい場合にのみ正確であることに注意が必要である

■サンプル数(全体のN数)が小さいとき,期待数が5未満のマスがでてくる.このような場合,得られる解析結果は不正確ではないかと疑問視される.これはCochran’s rule(コクラン・ルール)[1]と呼ばれる.具体的には,期待数のマス目のうち20%以上で期待数が5未満のマスがあるとχ2乗検定を用いてはならないというものである.2×2のχ2検定においては4マスのうち1マス(25%)でも期待数5未満があればその時点で「20%以上が5未満」を満たしてしまうためχ2乗検定を用いることは不適切となる.特に2×2のχ2検定ではすべての期待数が10以上であることが望ましい[2].SPSSで解析を行う場合は,χ2乗検定が不適切であれば表示で教えてくれるが,EXCELやいくつかの解析ソフトでは不適切であることを教えてくれない.このため,χ2乗検定を用いることが妥当であるかを判断するため,必ず期待数表を確認する必要がある.

■基本的にはサンプル数が20以下であればχ2乗検定はまず不適切となる.サンプル数が20を超えていてもかなりの頻度で不適切となりやすく,すべての期待数が10以上を目指すのであればサンプル数40以下ではまず望めない.基本的にはサンプル数100未満ではχ2乗検定は不適切となりやすいことを目安として知っておく必要がある.

■χ2乗検定が用いることができないのであればどうすればよいか.そこで出てくるのがFisher正確確率検定(Fisher's exact probability test)である.Fisherは有意水準としてp=0.05をカットオフとすることを最初に使用した人物として知られ,その後はこの0.05が慣習化されている(特に0.05に合理的根拠があったわけではない)[3].Fisher正確確率検定[4,5]は超幾何分布を利用したもので,χ2乗検定が不適切な事例において使用が推奨される.もっともχ2乗検定が可能な場合でもFisher正確確率検定を用いてもかまわない.

■Fisher正確確率検定の数式には階乗が用いられる.このため,EXCELで計算しようとするとコンピューターがオーバーフローしてしまうため,解析ソフトを使用した方がよい.もしEXCELで計算するのであれば,工夫が必要であり,これについては青木繁伸先生の紹介しているサイトが参考になる[6]

■さて,このFisher正確確率検定を用いて冒頭の解析例を解析しなおすと,p=0.074(使用解析ソフト:EXR[7])であり,統計学的には有意差はないことになり,結論までが変わってしまう(もっとも有意水準に必ずしもこだわらない方がいいという考え方もあるが).p値が0.05近傍の値(0.01-0.1)をとる際は統計学的有意差有無がχ2乗検定を用いるかFisher正確確率検定を用いるかで結果が変わってしまうため注意が必要である.学会や研究会の発表を見ていると,多くの発表がχ2乗検定を用いており,その中で明らかに不適切な使用をしているケースは非常に多い印象がある.

[1] Cochran WG. Some methods for strengthening the common x2 tests. Biometrics 1954; 10: 417-51
[2] Motulsky H. Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking, 2nd edition. 2010, 1995 by Oxford University Press, Inc
[3] Cowles M, Davis C. On the origins of the .05 level of statistical significance.
American Psychologist 1982; 37: 553-8
Hitchcock D. B. (2009)
[4] Fisher RA. On the interpretation of X2 from contingency tables, and the calculation of p. J R Stat Soc 1922; 85: 87-94.
[5] Hitchcock DB. Yates and Contingency Tables: 75 Years Later Electronic Journal for History of Probability and Statistics. 2009; 5: 1-14
[6] http://aoki2.si.gunma-u.ac.jp/lecture/Cross/fisher-calc.html
[7] Kanda Y. Investigation of the freely available easy-to-use software 'EZR' for medical statistics. Bone Marrow Transplant 2013: 48: 452-8
[PR]
by DrMagicianEARL | 2014-06-06 17:01 | 論文読み方,統計 | Comments(0)
■特定の変数が生存・死亡といったアウトカムとどれくらい関連があるかを調べる研究は多い.その際,生存群と死亡群で各変数を有意差検定していく方法がある(単変量解析).しかし,アウトカムは複数の変数の影響を受ける場合が多々ある.複数の変数がどのようにアウトカムに影響するかを見出すためには,より巧妙な統計学的方法がデータ解析に必要となる.2つまたはそれ以上の独立変数を持つ回帰モデルを適合させる方法は,重回帰(multiple regression)と呼ばれ(多変量解析とも言う),いくつかの種類がある.学会や論文で多変量解析と聞くと何かすごそうで非常に正確な統計解析手技に感じるかもしれない.

■生存,死亡という2つのアウトカムが存在する場合,これに関連する独立因子となる変数を検出するための重回帰はロジスティック回帰解析(logistic regression)である.今回,以下のシュミレーションを行った.

■EXCELで0から1までの数値をランダムにとりうる関数「=RAND()」を用い,患者数160例に対して20個の検査値(x1~x20)を想定したモデルを作成した.さらに,アウトカムとして,生存(=0),死亡(=1)を,0か1かをランダムにとりうる関数「=TRUNC(RAND()+0.5)」を定義した.この場合,死亡率50%モデルとなる.

■多変量解析を行うと以下のような結果であった.
e0255123_23303164.png
■症例数は160例であるため,変数20個をすべて独立変数として扱うことはできない(過剰適合overfittingとなってしまうため).そこで,一般的に行われている,全変数からもっとも関連性が低い変数を逐次的に除外(ここではp値が大きいものから除外)していく変数減少法(backward stepwise selection)を用いて変数を絞る操作を行う.この場合,症例数をN,変数の個数をMとすると,N>40×Mが一般原則であるため,変数を3つまで絞った結果が以下の通りである.
e0255123_23294172.png
■この3つの変数x8,x13,x15はすべてp値が0.05未満であり,有意水準5%の慣例に従えば,すべて「死亡に関連した有意な独立危険因子」ということになる.

■これらがランダム関数によるまったく関連のないシミュレーションデータをもとにした解析であることを知らなければ,非常によいデータであると勘違いしてしまうだろう.しかし,ランダム関数を用いているため,アウトカムと変数の間には関連性がないことは明らかである.つまり,これらの3つの変数が死亡に関連する独立危険因子であることは,p値が0.05を下回っていても単なる偶然に過ぎない.

■多変量解析において,変数を組み込むときに,まったく関連性がないものを組み込んでも偶然が生じる可能性があることが上記シミュレーションでも分かる.優れた解析に見える多変量解析といえども,使用する変数は解析者により恣意的に選ばれたものであることに注意が必要である.統計学的関連性は因果関係を保証するわけではなく,前提として,因果関係を示唆する根拠が必要である.

■近年は医療においてもpropensity score matching analysis(傾向スコアマッチング解析)が用いられるようになってきており,「観察研究,コホート研究をRCTっぽくする解析法」という触れ込みであたかもエビデンスレベルをかなり高めるかのように主張する人もいる.この解析は,各症例について,0から1までの傾向スコアを定めてペアをつくり,比較検討を行う解析であるが,これも多変量解析の1種であり,その変数選択は恣意的であることに十分注意が必要である.加えて,ペアマッチングを行う際にかなりの症例が脱落するため(集中治療領域の研究ではほとんどがN数が半数程度まで削られる),全集団のうち限られた層の評価しか行えない.逆に言えば,この層以外の集団においては,ここで得られたアウトカムがあてはまるとは限らない.

■2013年に重症急性膵炎への動注療法,敗血症へのPMX-DHPに関して,日本からDPCデータを用いた大規模なpropensity score matching analysisが報告され,いずれも死亡率を改善させなかったとしている.しかし,DPCデータはAPACHEIIやSOFAなどの重症度,検査値等の詳細は教えてくれない.ましてや病名のアップコーディングも多数含まれている可能性があり,解析に用いられた変数も恣意的となれば,まずあまり意味をなさない結果ではないかと思われる.
[PR]
by DrMagicianEARL | 2014-03-10 00:00 | 論文読み方,統計 | Comments(0)

by DrMagicianEARL