人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【文献+α】propensity scoreを用いた研究はRCTと結果が乖離する

■近年,propensity scoreを用いた解析が非常に流行しており,「観察研究をRCTっぽくする解析」「疑似RCT」などの表現でよく紹介されています.最近,PubMedにおいても,Article typeをRCTにすると,propensity scoreの解析を用いた観察研究までヒットするようになりました.しかし,この解析方法はそんな簡単なものではなく,解釈にかなり注意を要するもので,一部は不適切な乱用ではないかと疑うような報告もあり,私はかなりこの解析を用いた研究には慎重になるべきだと考えています.観察研究はGRADEシステムでいけばエビデンスのベースの質はCであり,よいデザインであればBに上がるわけですが,はたしてpropensity scoreを用いた研究はBになりうるのか?については私はまだ懐疑的です.使うならば「統計に詳しい医師」ではなくちゃんと統計学の専門家に相談するべきだと思います.

■敗血症領域では,日本集中治療医学会が敗血症Registryデータを用いてpropensity scoreの解析を行っています.また,DPCデータを用いたpropensity scoreの解析の報告も散見されるようになりました.これらのような報告を慎重に見るべき,とする論文がでていましたので紹介するとともに,propensity scoreについて少しまとめてみました.
敗血症領域において,propensity score解析を用いた観察研究は無作為化比較試験の結果と合致するか?
Zhang Z, Ni H, Xu X. Do the observational studies using propensity score analysis agree with randomized controlled trials in the area of sepsis? J Crit Care. 2014 Oct; 29(5): 886.e9-15
PMID:24996762

Abstract
【背 景】
敗血症は集中治療室における死亡や罹患の主要因であり,多くの研究がそのアウトカムを改善する目的で行われている.この目的のため,無作為化比較試験(RCT)やpropensity score(PS)法を用いた観察研究が一般的に用いられている.しかし,これらの2つの主要な方法論的デザインの合致はこの特異的領域ではまだ検討されていない.

【目 的】
本研究の目的は,RCTとPSによる研究とでの効果量の比較を行うことである.

【方 法】
敗血症領域において,PubMed,Scopus,EBSCOを含む電子データベースからPSを用いた研究を検索した.これらの研究を,集団,介入,対照,アウトカムの単語でRCTまたはシステマティックレビューやメタ解析とマッチさせた.1領域について複数のPSによる研究とRCTが存在する場合は,効果量を,変量効果モデルと逆分散法を用いて蓄積した.

【結 果】
RCTとPSを用いた研究のマッチしたペアが少なくとも1つ存在するという基準を満たしたものが全部で8つのトピックスで検出された.介入は,活性化プロテインC,低用量ステロイド,アンチトロンビンⅢ,抗菌薬併用療法,魚油製剤,スタチン,挿管時のエトミデート,遺伝子組換えヒト可溶性トロンボモデュリンが含まれた.効果量はほとんどのトピックス(6/8)でRCTとPSを用いた研究で統計学的有意差がみられた.効果量の蓄積された平均差は-0.16(95%CI -0.33 to 0.01)であり,RCTよりもPSを用いた研究の方が治療効果が大きくなる傾向がみられた.本結果はサンプルサイズの大きいRCTとPSを用いた研究に限定しても不変であった.

【結 論】
我々の研究から,敗血症領域において,有効性試験の差によりPSを用いた研究がRCTよりも大きな治療効果を報告している傾向が示唆された.
■観察研究とRCTの結果が乖離することはよく見られることであり[1],たとえPSを解析に用いた研究であっても,その効果量はRCTと異なることを示している.この研究の他にも,集中治療領域全体[2],急性冠症候群[3]の研究においてもPSを用いた研究とRCTには乖離がみられるとの結果が報告されている.

■もっとも,RCTは事前に決められた患者登録基準,除外基準によって選択された集団を対象としており,観察研究はそのような厳しい選択がない,リアルワールドなデータをもとに解析を行うため,治療介入を行う医師自身の判断がより効果が得られやすいであろう患者を意図的に選択している可能性もあるため,観察研究とRCTとで効果量に差がでることはある意味当たり前のこと,と考えることもできる.ただし,PSを用いた解析はそう単純なものではないことを知っておかなければならない.「RCTっぽくする解析方法」という響きのいいフレーズの下で流行りの解析方法ではあるが,使い方を誤ると不適切となり兼ねない諸刃の剣である.

1.propensity score matching解析とは?
■特定の治療介入を行うか否かは患者の状態,あるいは医師によって判断が異なることがある.通常の後ろ向き観察研究ではこのバイアスが大きくかかわり,単純に介入群と非介入群で効果を直接比較しても得られる結果から導き出される結論は妥当性に欠ける.そこで背景因子を調整した多変量解析が行われるが,説明変数(背景因子)が研究者によって恣意的に決定されるためバイアスリスクが除かれるわけではない.この後ろ向き観察研究のバイアスリスクをより除く手段としてpropensity score(以下PS)を用いた解析が行われるようになった.

■PSは日本語では傾向スコアなどと訳され,特定の治療介入が行われる傾向を見たものである[4].すなわち,患者の背景因子をもとに,特定の治療介入が行われる確率(割り付け確率)を多重ロジスティック解析を用いて算出したスコアである.当然ながら確率であるため,PSは0から1までの値をとる.RCTの割り付け確率は真のPSであるが,観察研究ではこの割り付け確率を共変量(背景因子)から推定していくことになる.そこで,PS(特定の治療介入を受ける確率)が同じ2人の患者がいて,片方がその治療を受け,もう片方が治療を受けていないならば,片方を治療群,片方を対照群としてペアをつくり(マッチング),この2人がランダムに両群に割り付けられたと仮定して比較を行う.これがPS matching解析であり,「擬似RCT」「観察研究をRCTっぽくする解析」と言われる理由である.

■このようにRCTを行うことが倫理的に困難で観察研究を余儀なくされるとき,問題となる治療選択バイアスを軽減する上でPSは非常に有用である.ただし,PSを用いた解析結果に妥当性を持たせるためにはいくつもの問題点をクリアせねばならず,そう簡単に使える解析手法ではない[5]

2.propensity scoreの問題点

(1) できる限り多くの共変量を組み込まなければならない

■PS解析を行う上で重要なのは,交絡因子をすべて考慮することが目標となる.すなわち,治療法の選択に関連するすべての要因を共変量として組み込む必要があり,十分多くの変数をモデルに取り込まなければならない.もし共変量が少なければそこには「共変量を研究者が自分の都合のいい結果となるように選択した可能性」という恣意性のバイアスが生じてくる.よって,どこまでデータが揃っているかが重要となってくるため,欠測値が多いデータベースでは不利となる.PS解析の研究結果を見るときは,必ず共変量に目を通し,妥当性を検討すべきである.

■国全体規模での大規模データベースでPSを用いた解析が行われることがある.これは生活習慣病等の慢性疾患や急性期加療後の長期的な薬剤投与followなどでよく用いられている.近年,集中治療領域において日本からDPCデータのPSを用いた解析が報告されるようになったが,ここは注意が必要である.DPCデータは詳細な検査値や重症度は不明であること,アップコーディング(たとえばDICでないのにDIC病名がついているなど)を除外できないこと,no CPRとなった症例を除外できないことはかなり大きなlimitationであると思われる.また,PSでの共変量はDPCの性質上,すべて0か1の2つの値のみであり連続変数ではない.そもそもPSは前述の通り,治療介入の選択に関連する変数をできる限り多く組み込む必要があるが,DPCデータから得られる変数では不十分である.集中治療領域は慢性疾患とは異なり来院時のデータの連続変数で大きく治療方針や予後が変わるため,ここを考慮せずの解析データではいかにサンプル数が多くても妥当な結論は得られないのではないかと思われる.

(2) サンプル数が大きく削ぎ落とされてしまう

■特定の治療の介入群と非介入群の偏りが大きいと,PSでマッチするペアの数が極端に少なくなってしまい,研究の妥当性が落ちてしまう(少ない方の患者群に合わせてマッチングが行われるためどうしても検定する際の症例数が少なくなる).実際に集中治療領域でPS matching解析を用いた研究のほとんどが1/3~1/10にまでサンプル数が削ぎ落とされている.当然,研究全体のサンプル数が少なければそれだけマッチするペアは少なくなりやすい.

(3) マッチングされた患者集団は母集団を反映するか?

■PS matchingでは患者背景がどちらかの群に偏ってしまう.このため,得られた結果を本来の治療効果を検討したい母集団全体に本当に適応できるのかという問題点を有する.例えば,治療を行わなかった群に合わせたマッチングを行った場合,治療を受けなさそうな患者群での治療効果が判定されることになる.よって,解析前の介入群と非介入群のそれぞれのサンプル数の影響は免れない.

3.問題点をなんとかして解消する方法はないか?

■共変量の数が不十分である場合,サンプル数が非常に少ない場合はそもそもPS解析は行うべきではないと思われる.サンプル数の削ぎ落としをなくしたい,偏りをできるかぎりなくしたいという場合は(なぜか医療系論文ではまだほとんど用いられていないようであるが)PSの逆数の値を用いてその患者の予後に与える影響度に重み付けをして解析を行うIPTW法(inverse probability of treatment weighting)[6]という方法が提唱されており(周辺構造モデル(marginal structral model)とも呼ぶ),PS matching法よりもIPTW法の方が解析が簡単で、患者背景の調整もよりうまく行えると認識されている.

[1] Anglemyer A, Horvath HT, Bero L. Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials. Cochrane Database Syst Rev 2014; 4: MR000034
[2] Zhang Z, Ni H, Xu X. Observational studies using propensity score analysis underestimated the effect sizes in critical care medicine. J Clin Epidemiol 2014; 67: 932-9
[3] Dahabreh IJ, Sheldrick RC, Paulus JK, et al. Do observational studies using propensity score methods agree with randomized trials? A systematic comparison of studies on acute coronary syndromes. Eur Heart J 2012; 33: 1893-901
[4] Rousenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal effects. Biometrika 1983; 70: 41-55
[5] Rubin D. Estimating causal effects from large data sets using propensity scores. Ann Internal Med 1997; 127: 757–63
[6] Austin PC. The performance of different propensity score methods for estimating marginal hazard ratios. Stat Med 2013; 32: 2837-49
by DrMagicianEARL | 2015-04-03 18:42 | 論文読み方,統計

by DrMagicianEARL