人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

■画像検査におけるAI診断システムはかなり進んでいて,臨床導入もされているが,これまでの研究の多くはその精度を評価するもので,患者の予後まで検討した研究はほとんどない.最近の研究では,AIトリアージソフトウェアを放射線技師のワークフローに導入することで,頭蓋内出血と肺塞栓症と診断された患者の在院日数が有意に減少することが示された[Radiol Res Pract 2022;2022:1–7]

■今回,救急部門で頭蓋内出血患者への放射線画像検査ワークフローにAIによるトリアージシステムを導入することで,絶対全死亡率を1/2~2/3に減少させ,神経学的予後も改善したという前後比較研究がInternationarl Journal of Emergency Medicineに報告されたので紹介する.

■本研究で導入されたAIトリアージシステムは次のように作動する.すべての関連CT検査は,手動トリガーなしでAI解析のために自動的にAIに送信される.頭蓋内出血所見が検出されると,AIは放射線科医のワークステーションに直接通知を配信する(フラグ).フラグが立てられたCT画像については放射線科医が優先的に読影を行う.
【AI】頭蓋内出血のCT画像のAIによるトリアージは死亡リスクと神経学的予後を大きく改善する_e0255123_09555500.png
■頭蓋内出血データセットには,初回の救急外来受診時にCTスキャンを受けた頭蓋内出血患者587例が含まれ,AI導入前群289例,AI導入後群298例であった.患者背景はほとんどの項目に有意差はみられなかったが,抗血栓薬使用率は41.8% vs 28.8%(p=0.001)でAI導入前の方が有意に多かった.

■AI導入後群では,AI導入前群に比べて30日死亡率(AI前27.7% vs AI後17.5%,OR 0.48,95%CI odds 0.29-0.79,p=0.004)。および120日死亡率(AI前31.8% vs AI後21.7%,OR 0.58,95%CI odds 0.37-0.91,p=0.017)の有意な減少がみられた.抗血栓薬使用患者に限定したサブ解析においても,AI導入後の方が有意な死亡率改善を示した.なお,この研究では対照として,虚血性脳卒中,心筋梗塞の患者でも前後比較が行われたが,これらの患者では有意差はみられなかった.

■入院時の修正Rankin Scaleに有意差はなく,退院時の修正Rankin Scaleは,AI導入後群で減少し(3.17 vs 2.84,p=0.044),期間間に有意差が認められた.退院時と入院時の修正Rankin Scaleの差は,AI導入前群とAI導入後群で有意差がみられた(2.37 vs 2.03,p=0.041).これらのことからAI導入による神経学的予後の改善の可能性も示唆された.
【AI】頭蓋内出血のCT画像のAIによるトリアージは死亡リスクと神経学的予後を大きく改善する_e0255123_09543036.png
■死亡率の低下がみられた理由として,頭蓋内出血の可能性があるCT画像にフラグを立てることで,放射線科医がワークリストを優先し,一刻を争う症例を最初に評価するようになり,さらには微妙な所見や境界的な所見において疑い指数が高まることにも起因すると考察されている.これらの症例を優先的に評価することで早期治療介入が可能となる.今後,RCT等質の高い研究での評価が望まれる.
脳出血の検出における人工知能ソリューションの導入による1年後の臨床転帰への影響
Kotovich D, Twig G, Itsekson-Hayosh Zeev, et al. The impact on clinical outcomes after 1 year of implementation of an artificial intelligence solution for the detection of intracranial hemorrhage. Int J Emerg Med 2023; 16: 50
PMID: 37568103
https://doi.org/10.1186/s12245-023-00523-y

Abstract

【背景】救急部門における市販の人工知能(AI)ソリューションの導入が,レベル1外傷センターの臨床転帰に及ぼす影響を評価すること.

【方法】レベル1外傷センターにおいて,AI導入前(2017.1.1~2018.1.1)とAI導入後(2019.1.1~2020.1.1)の2つの期間の後ろ向きコホート研究を実施した.救急部入院時に頭部CTで頭蓋内出血(ICH)と確定診断された連続患者587例にICHアルゴリズムを適用した.研究変数は,人口統計,患者の転帰,画像データなどであった.同時期に他の急性疾患(虚血性脳卒中(IS),心筋梗塞(MI))で救急部に入院した患者を対照群とした.主要評価項目は30日および120日全死因死亡率であった.副次評価項目は退院時のmRS(modified Rankin Scale for Neurologic Disability)に基づく有病率であった.

【結果】ICHを有する587人(AI前の年齢71±1歳の289人,男性169人,AI後の年齢69±1歳の298人,男性187人)が解析対象となった.人口統計,併存疾患,救急重症度スコア,ICHの種類,入院期間は2つの期間間で有意差はなかった.30日および120日の全死因死亡率は,AI前群と比較してAI後群で有意に減少した(それぞれ27.7% vs 17.5%;p=0.004,31.8%対21.7%;p=0.017).退院時のmRS(modified Rankin Scale)はAI施行後に有意に低下した(3.2 vs 2.8;p=0.044).

【結論】本研究の付加価値は,頭蓋内出血(ICH)と診断された患者の30日および120日間の全死因死亡率および罹患率の有意な減少を実証した,救急医療環境における人工知能(AI)コンピュータ支援トリアージおよび優先順位決定ソフトウェアの導入を強調するものである.AIソフトは,死亡率だけでなくmRSの有意な減少にも関連していた.

# by DrMagicianEARL | 2023-08-14 09:57 | 医学・医療とAI
■arXivは,物理学,数学,計算機科学,数量生物学,数量ファイナンス,統計学,電子工学・システム科学,経済学のプレプリント論文が保存・公開されている無料のウェブサイトであり,この領域では極めて人気がある.これらの領域はとにかく早さが命であり,査読を極めて重視する医学論文とはだいぶ違う世界である.最近目まぐるしく進化している人工知能(AI)の論文もarXivに多数submitされており,その数は,xn--cs-o83a1doa0215fo75c.CL (computation and language) かつ/または cs.LG (machine learning)のカテゴリーが割り当てられた論文で数えても2023年上半期だけで20843本におよぶ.

■今回,この2023年上半期にarXivに投稿された2万本あまりのAI関連論文の中から最も人気のある上位40本の論文をリストアップするとともにそれら40本の論文の特徴を分析したレポートがでたので紹介する.

■この論文は,2023年上半期にarXivで最も影響力のあるAI論文,特に自然言語処理(NLP)と機械学習(ML)の分野の論文を特定することを目的としている.arXivから2023年1-6月に投稿された論文20843本を収集し,被引用数でソートして40本の最も人気のある論文のリストを作成した.なお,被引用数の指標はz-scoreを用いている.このz-scoreは標準化されたスコアで,平均と標準偏差を用いてデータの位置を表す指標である.具体的には,ある週に発表された論文の被引用数から,その週のすべての論文の平均被引用数を引いて,その週の被引用数の標準偏差で割った値である.これにより,発表時期による被引用数の違いを正規化することで,どの週で発表された論文も公平に評価できる指標となっている.z-scoreが高いほど、その週の他の論文と比較して被引用数が多く,影響力が大きい論文だと考えられる.

■40本の論文のz-scoreが大きいものから並べたリストは以下の通りである(タイトルをクリックすると論文ページに飛ぶ).
1.LLaMA: オープンで効率的な基礎言語モデル

2.GPT-4テクニカルレポート

3.PaLM 2技術レポート

4.人工知能のスパーク: GPT-4の初期実験

5.PaLM-E: 具現化されたマルチモーダル言語モデル

6.QLoRA: 量子化LLMの効率的ファインチューニング

7.何でもセグメント化

8.MT-Benchとチャットボットアリーナを使用したLLM-as-a-judgeの判断

9.チャットGPTの推論,幻覚,対話力のマルチタスク・多言語・マルチモーダル評価

10.大規模言語モデルの包括的調査

11.視覚命令チューニング

12.大規模言語モデルによる熟考的問題解決の思考の木

13.Voyager: 大規模言語モデルを搭載したオープンエンドの具現化エージェント

14.Toolformer: 言語モデルは自分自身が道具を使うことを学習できる

15.チャットGPTは人間のエキスパートにどれだけ近いか? 比較コーパス,評価,検出

16.ディフュージョンモデルからのトレーニングデータの抽出

17.大規模言語モデルは公平な評価者ではない

18.HuggingGPT: チャットGPTとそのフレンドを使ったAIタスクの解決

19.大規模言語モデルのためのウォーターマーク

20.DetectGPT: 確率曲率を用いたゼロショット機械生成テキスト検出

21.ワールドモデルによる多様なドメインの獲得

22.Augmented Language Models: 調査

23.BERTからチャットGPTまで:事前学習基盤モデルの包括的調査

24.ImageBind: すべてを束ねる1つの埋め込み空間

25.Muse: マスクされた生成トランスフォーマによるテキストから画像への生成

26.T2I-Adapter: テキストから画像へのディフュージョンモデルのより制御可能な能力を引き出すアダプターの学習

27.チャットGPTは汎用自然言語処理タスクソルバーか?

28.SemEval-2023 Task 2: 多言語固有表現抽出の詳細認識(MultiCoNER 2)

29.チャットGPTの数学的能力

30.The Flan Collection: 効果的な命令チューニングのためのデータと方法の設計

31.専有LLMの模倣の虚妄

32.Falcon LLMのためのRefinedWebデータセット: ウェブデータのみでキュレーションされたコーパスを上回る

33.ステップバイステップの蒸留! 少ないトレーニングデータと小さいモデルサイズで大規模言語モデルを上回る

34.Video-LLaMA: 動画理解のための命令チューニングされたオーディオビジュアル言語モデル

35.InstructBLIP: 命令チューニングによる汎用ビジョン言語モデルへ向けて

36.PandaGPT: 命令に従う1つのモデル

37.チャットGPTはすべてではない.大規模生成AIモデルの最先端調査

38.理論的な心の認識が大規模言語モデルで自発的に出現した可能性がある

39.mPLUG-Owl: モジュール化がマルチモーダリティを持つ大規模言語モデルを強化する

40.Otter: コンテキスト内命令チューニングを用いたマルチモーダルモデル
■人気上位40本の論文では大規模言語モデル(LLM)関連の論文が圧倒的に多く,LLMの効率性,LLMによる評価,倫理的側面,具現化エージェント,LLMによる問題解決が主なトピックであった.また,上位40本のうち約60%がNLP関連であり,LLaMAが最も引用数が多く,ChatGPTやGPT-4を上回っていた.
【AI】2023年上半期のarXivに投稿されたAI関連の人気論文トップ40のリスト(リンク付き)_e0255123_17472822.png
■以下は,各カテゴリの論文の平均引用回数の推移である.cs.CSはcomputational and language (計算機科学 - 言語),cs.LGはmachine learning(計算機科学 - 機械学習),Restはcs.CSとcs.LG以外のすべてのカテゴリーの総称である.
【AI】2023年上半期のarXivに投稿されたAI関連の人気論文トップ40のリスト(リンク付き)_e0255123_18433868.png
■ChatGPT関連論文は3月下旬までは増加したが,その後は人気が低下した.
【AI】2023年上半期のarXivに投稿されたAI関連の人気論文トップ40のリスト(リンク付き)_e0255123_18434959.png
NLLG季刊arXivレポート06/23:現在最も影響力のあるAI論文は何か?
Eger S, Leiter C, Belouadi J, et al. NLLG Quarterly arXiv Report 06/23: What are the most influential current AI Papers? arXiv 2023 Jul.31[arXiv:2308.04889]
https://doi.org/10.48550/arXiv.2308.04889

Abstract

生成人工知能(AI)の分野,特に自然言語処理(NLP)と機械学習(ML)のサブフィールドにおける情報の急速な増加は,研究者や実務家にとって,最新の開発に遅れを取らないようにするための大きな課題となっている.情報過多の問題に対処するため,ビーレフェルト大学の自然言語学習グループによる本レポートは,NLPとMLに特に重点を置いて,arXivで最も人気のある論文を特定することに焦点を当てている.その目的は,最も関連性が高く,広く議論されている研究へのクイックガイドを提供することであり,新規参入者と既存研究者の両方が現在のトレンドに遅れないよう支援することである.特に,2023年上半期の正規化被引用回数に基づき,最も人気のある40の論文のリストを作成した.2023年前半は大規模言語モデル(LLM),特にChatGPTに関連する論文が圧倒的に多く,最近になって人気低下の兆しを見せている.さらに,ML関連論文の数が2倍であるにもかかわらず,NLP関連論文の影響力が最も高い(上位論文の約60%).最も多く引用された論文で研究されている中核的な問題は以下の通りである: LLMの効率性,評価技術,倫理的考察,具現化エージェント,LLMによる問題解決など.さらに,上位40位圏外の論文と比較して,上位論文の特徴を検証した(上位論文がLLMの再利用に焦点を当てていることに注目).

# by DrMagicianEARL | 2023-08-10 18:47 | 医学・医療とAI
■末梢挿入式中心静脈カテーテル(PICC)は内頚動脈等の中心静脈カテーテル(CVC)よりもカテーテル関連血流感染症は少ないことはこれまでいくつもの研究で示されてきている.しかし,PICCとCVCのコロニゼーション率や微生物パターンの違いを検討した研究はまだなかった.今回紹介する論文は,そのコロニゼーション率と微生物パターンの違いを検討した後ろ向き観察研究である.

■本研究では,使用されたカテーテルは主にトリプルルーメンで,カテーテル挿入はmaximum barrier precautionで行われた.患者背景に有意差はなし.PICCの平均留置期間は20.47±10.1日(範囲:3-87日),CVCの場合は14.4±8.5日(範囲:2-40日)であった.カテーテル抜去の原因は,使用終了85.5%,感染の疑い10.7%,その他3.8%であった.感染の疑い(潜在的なCLABSIまたはCRBSI)に関しては,先端培養に伴うすべての血液培養は陰性であった.

■コロニゼーション発生は2.97% vs 10.28%(p=0.001),1000カテーテル日あたりでは1.71 vs 12.48(p<0.001)でPICC群の方が有意に少なかった.日本とギリシャで耐性菌の事情がかなり異なるため,微生物パターンは参考にならないかもしれないが,CVC群ではMDRAb(多剤耐性アシネトバクター)が31.1%,次いでMDRKP(多剤耐性肺炎桿菌)が16.4%であったのに対し,PICC群では分離された主要な微生物はカンジダ属が23.8%であり,次いでMDRAb,MDRKPが14.2%ずつであった.PICC群でカンジダ属が多かったのは,CVC群よりも留置期間が長かったからだろうと考察されている.
中心静脈カテーテルと末梢挿入式中心静脈カテーテルの微生物コロニゼーション率の比較
Pitiriga V, Bakalis J, Theodoridou K, et al. Comparison of microbial colonization rates between central venous catheters and peripherally inserted central catheters. Antimicrob Resist Infect Control 2023; 12: 74
PMID: 37550791
http://www.ncbi.nlm.nih.gov/pmc/articles/pmc10405474/

Abstract

【背景】中心静脈カテーテル(CVC)や末梢挿入式中心静脈カテーテル(PICC)は,重症患者の血管内留置器具として広く使用されてきた.しかし,これらは中心静脈カテーテル関連血流感染症(CLABSI)の素因と考えられているカテーテルコロニーゼーションなどの合併症を引き起こす可能性がある.PICCとCVCの血流感染リスクを比較した研究は数多くあるが,コロニー形成率に関する比較研究は限られている.

【目的】ギリシャの3次病院における2年間のCVCまたはPICCを有する重症患者におけるカテーテルコロニゼーションの事例を後ろ向きに解析し,コロニゼーション率,微生物プロファイル,および抗菌薬感受性パターンを比較した.

【方法】2017年5月~2019年5月にPICCおよびCVC留置を受けた連続重症入院患者の臨床検査データを解析した.すべてのカテーテルを,カテーテル抜去後のルーチンのプロセスとして,または感染が疑われた後に,細菌病原体について半定量的培養法で検査した.菌種の同定および抗菌薬耐性パターンはVitek2自動化システムにより決定した.

【結果】調査期間中,CVCでは合計122/1187例(10.28%),PICCでは19/639例(2.97%)のカテーテルコロニーゼーションが確認された(p=0.001).コロニー形成率はCVC群で12.48/1000カテーテル日,PICC群で1.71/1000カテーテル日であった(p<0.001).多剤耐性菌(MDRO)によるカテーテル1000日あたりのコロニーゼーション率は,全例で3.85,CVC群で7.26(71/122),PICC群で0.63(7/19)であった(p<0.001)。CVC群で最も多く分離された微生物はMDR Acinetobacter baumannii(n=38,31.1%)で,次いでMDR Klebsiella pneumoniae(n=20,16.4%)であった.PICC群では,最も多く分離された微生物はカンジダ属(n=5,23.8%)で,次いでMDR K. pneumoniae とMDR A. baumannii が同数(n=3,14.2%)であった.

【結論】PICCはCVCと比較して有意に低いコロニーコロニゼーション率と関連していた.さらに,微生物コロニーニゼーションのパターンから,CVCではMDRグラム陰性菌が優勢である傾向が明らかになり,PICCが長期入院患者の血管内アクセスにとってより安全な選択肢である可能性が示唆された.局所微生物生態学に基づく予防プログラムは,カテーテルのコロニゼーション率とCLABSIを減少させる可能性がある.

# by DrMagicianEARL | 2023-08-10 08:26 | 感染対策
■SARS-CoV-2オミクロン株はデルタ株までと比較してワクチンによる液性免疫(抗体による)が得られにくいが,有効性は低下しつつも維持していた.そして,現在主流となっているXBB株はワクチンの恩恵をさらに受けにくくする変異株とin vitro 研究ではされてきたが,リアルワールドデータではそうでもないようである.今回,XBB流行期のシンガポールにおいて,1価ワクチンによる4回目接種者と比較して2価ワクチン(オミクロン株BA.1またはBA.4/5対応ワクチン)が症候性感染を82-85%,入院を88-96%予防したという報告がLancet Infectious Diseases誌にpublishされたので紹介する.
SARS-CoV-2未感染者および既感染者における有症状SARS-CoV-2感染およびCOVID-19関連入院に対する2価mRNAワクチンの有効性:後ろ向きコホート研究
Tan CY, Chiew CJ, Pang D, et al. Effectiveness of bivalent mRNA vaccines against medically attended symptomatic SARS-CoV-2 infection and COVID-19-related hospital admission among SARS-CoV-2-naive and previously infected individuals: a retrospective cohort study. Lancet Infect Dis 2023 Aug.2[Online ahead of print]
PMID: 37543042
https://doi.org/10.1016/s1473-3099(23)00373-0

Abstract

【背景】免疫回避能の高いSARS-CoV-2オミクロン株(B.1.1.529)の出現により,従来株とオミクロン株を標的とした2価のmRNAワクチンが開発され,普及している.しかし,二価ワクチンの有効性に関する実際の観察データは乏しい.我々は,シンガポールにおけるSARS-CoV-2未感染者および既感染者を対象に,有症状SARS-CoV-2感染およびCOVID-19関連入院に対するBA.1由来またはBA.4/BA.5由来の2価ワクチンによる4回目のワクチン接種の相対的有効性を評価することを目的とした.

【方法】18歳以上のシンガポール在住者で,一価のmRNAワクチンを3回接種し,4回目の接種資格を有する者を対象に後ろ向きコホート研究を実施した.データはシンガポール保健省が管理するCOVID-19症例とワクチン接種に関する公式データベースから収集した.2022年10月14日から2023年1月31日の間に,医療機関で受診した症候性SARS-CoV-2感染とCOVID-19関連入院の発生率を,前回の感染状況と4回目のワクチン接種の種類別に解析した.逆確率重み付けCox回帰を用いてハザード比(HR)を推定した.

【結果】2,749,819人が解析に組み込まれた.SARS-CoV-2未発症群では,4回目の1価ワクチン接種は,3回目の1価ワクチン接種と比較して,症候性感染に対する追加予防効果をもたらさなかった(HR 1.09 [95%CI 1.07-1.11])が,2価ワクチンは追加予防効果をもたらした(HR 0.18 [95%CI 0.17-0.19]).感染歴のある人では,4回目の1価ワクチン接種でHR 0.87(95%CI 0.84-0.91),2価ワクチン接種でHR 0.14(0.13-0.15)であった.COVID-19に関連した入院に対しては,2価ワクチン(SARS-CoV-2未感染者ではHR 0.12[95%CI 0.08-0.18],既感染者ではHR 0.04[0.01-0.15])は,4回目の1価ワクチン(SARS-CoV-2未感染者ではHR 0.84[95%CI 0.77-0.91],既感染者ではHR 0.85[95%CI 0.69-1.04])と比較して大きな利益をもたらした.

【結論】SARS-CoV-2未感染者,既感染者ともに,2価ワクチンの4回接種は,1価ワクチンの4回接種と比較して,医療機関で受診した症候性SARS-CoV-2感染およびCOVID-19に関連した入院に対してかなり有効であった.このオミクロンが優勢なパンデミックでは,過去の感染歴にかかわらず,2価ワクチンによるブースターが望ましいかもしれない.

# by DrMagicianEARL | 2023-08-09 10:08 | 感染対策
■大規模言語モデル(LLM)による対話型AIでは,どうしても不正確な回答を生成してしまうことがあり,学習した内容が誤っていたり,ハルシネーションを起こしたりとまだまだ課題がある.これは医療,金融,法律などの重要な分野への適用において大きな制限となっている.このため,ユーザーは生成された回答が正確かどうかを確認する必要がある.今回紹介する論文は,そのような,対話型AIにおいて,生成された回答のファクトチェックを行うプラグインツールFacToolについてのものである.

1.FacToolとは

■本論文では,生成AIが高品質のテキストを生成できるようになってきた一方で,生成内容に事実誤りが含まれる可能性が懸念されていることを指摘している.まず,複数のタスクに適用可能なLLMが普及し,多様なタスクに活用できるようになってきた一方で,生成内容に誤った情報が含まれる可能性が高まっていると指摘している.次に,生成されたテキストは長文で構成されており,個々の事実の粒度が明確に定義されていないこと,事実確認に利用可能な明確な根拠が限定的であることを指摘している.
※「粒度」とは情報やデータの詳細度や単位の大きさを指す用語で,一般的には「分解能」や「レベルの詳細度」といった概念を指す.「生成されるテキストは長大で、個々の事実に明確な粒度が欠けています」との表現は,生成されたテキストの中の個々の事実(情報の単位)が,その区切りや詳細度が不明確である,つまりどこからどこまでが一つの事実としてカウントするかが曖昧であるという意味である.

■こうした課題に対処するため,本論文ではFacToolというタスク/ドメイン非依存の枠組みを提案している.これは,LLMが生成したテキストの誤りを検出するためのものである.4つのタスク(知識ベースQ&A,コード生成,数学的推論,科学文献レビュー)にFacToolを適用した実験結果から提案手法の有効性を示し,ChatGPTプラグインインタフェースを含んだFacToolのコードをGitHubで公開しており,動画でインターフェースが提示されており,どのようにファクトチェックしているかを見ることができる.論文を読むと分かるが,ファクトチェックの方法は地道な作業をプログラムで走らせているだけではあるが,実質現時点ではこれが簡便で最善の方法なのかもしれない.
【AI】ChatGPTなどの対話型AIの回答をファクトチェックするツール「FacTool」_e0255123_18430791.png
2.FacToolを真似てChatGPT-4でファクトチェックする

■このFacToolをChatGPTで使用するには,一般的に使用されているChatGPTではなく,OpenAI APIを使用したChatGPTである必要がある(有料).APIを利用される方はFacToolを導入するとよいだろう.一方で,APIを利用しない場合でも,この論文におけるFacToolの手法をヒントにファクトチェックを自分で手動で行うプロンプトを作ることも可能である.前述の4つのタスクのうち,特に医学/医療で用いるのは「知識ベースQ&A」と「科学文献レビュー」であろう.以下では,その方法を述べる.

■FacToolの根幹をなす考え方は,関連情報(エビデンス)を外部ツールを使って収集し,生成された内容の正誤を判断することにある.具体的には,次のステップが重要だと考えられる.(1)生成された内容から主張(claim)を抽出する
(2)主張ごとに検索クエリや必要な入力を作成し外部ツールを利用する
※ここでの外部ツールはGPT-4のウェブ検索機能をもつサードパーティープラグインを使えば可能である.
(3)外部ツールから得られたエビデンスを基に主張の正誤を人間が判断する
【AI】ChatGPTなどの対話型AIの回答をファクトチェックするツール「FacTool」_e0255123_18410082.png
■FacTool自体はChatGPTやGPT-4の強化能力を活用して上記のステップを効率的に実行しているが,人間自身で必要なプロンプトを入力し,Web上の情報からエビデンスを集め,自らの判断で主張の正誤を判断するという手法自体は同様の目的で利用できると考えられる.

3.知識ベースQ&Aや科学文献レビューの回答のファクトチェック方法

■上記をもとにChatGPT-4のプラグインモードで手動で行うプロンプト例を以下に示す.なお,使用するサードパーティープラグインはウェブ検索機能を有するWebPilotやScrapingなどを用いる.
プロンプト(知識ベースのQ&A)

検証するコンテンツ:#ファクトチェックしてもらう文章を入力#

タスク:検証するコンテンツについて以下のプロセスに従ってファクトチェックを行ってください.

プロセス:
1.検証するコンテンツの主張を文章として抽出してください.
2.抽出した主張ごとにGoogleウェブ検索できる検索クエリを作成してください.
3.作成した検索クエリをもとにウェブ検索し,関連情報を収集してください.
4.収集した情報(エビデンス)をもとに検証するコンテンツの主張の信憑性を判断してください.
プロンプト(科学文献レビュー)

検証するコンテンツ:#ファクトチェックしてもらう文章を入力#

タスク:検証するコンテンツについて以下のプロセスに従ってファクトチェックを行ってください.

プロセス:
1.検証するコンテンツから論文タイトル,著者名,発行年を含むタプルを主張として抽出してください.
2.各首長(タプル)から論文タイトルをクエリとしてGoogle Scholarから論文の情報(論文タイトル,著者リスト,発行年)を取得してください.
3.主張の論文タイトルと Google Scholarから取得した論文タイトルを比較し,完全一致していればTrue,一致していなければFalseと判定してください.
4.主張の著者リストが Google Scholarから取得した著者リストのサブセットであればTrueとし,そうでなければFalseと判定してください.
5.論文タイトルと著者リストの両方が一致していなければFalseと判断し,両方が一致していればTrueと判断してください.
FacTool:生成型AIにおける事実性検出-マルチタスクおよびマルチドメインシナリオ向けのツール強化フレームワーク
Chern IC, Chern S, Chen S, et al. FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv 2023 Jul.26[arXiv 2307.13528]
https://doi.org/10.48550/arXiv.2307.13528

Abstract

生成型プレトレーニングモデルの出現により,高品質なテキストの生成が容易になった一方で,生成されたテキストに含まれる事実誤認を特定する際の課題も増加した.特に, (1) より多くのタスクが生成型モデルによって処理される際に事実誤認を含むリスクが増大している, (2) 生成されるテキストは長大で,個々の事実に明確な粒度が欠けている, (3) 事実確認の過程で利用可能な明確な証拠が不足している.以上の課題を踏まえ,本論文では,大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実誤認を検出するためのタスクおよびドメインに依存しないフレームワーク,FacToolを提案する.4つの異なるタスク(知識ベースのQA,コード生成,数学的推理,科学文献レビュー)での実験が,提案された方法の有効性を示している.我々は,ChatGPTプラグインインターフェースに関連したFacToolのコードをこのhttps URLにて公開する.
GitHub:https://github.com/GAIR-NLP/factool

# by DrMagicianEARL | 2023-08-08 08:33 | 医学・医療とAI

by DrMagicianEARL