人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】ChatGPT-3.5が生成した医療記事の引用文献の半数は捏造(ハルシネーション)

■ChatGPTが徐々に普及していっているが,その正確性についてはまだまだ懸念がある.とりわけ,ハルシネーション(幻覚)という現象はつきもので,特に論文などのソースの提示を求めると,存在しない架空の論文を提示してくることがしばしばある.月$20の有料会員(ChatGPT Plus会員)であれば,ブラウジング機能やプラグイン機能があるためハルシネーションは大幅に減るが,現状は多くの人は無料会員であり,ChatGPT-3.5を使用している(OpenAIの発表によると,近々無料会員もブラウジング機能が利用可能になるとのことである).

■GPT-3.5はNPO団体CommonCrawlが集めたWebクロールデータとWikipediaのテキストを使って学習しているが,AIが学習データに基づいて新たな文章を作成する際は,ディープニューラルネットワークを使用してテキストのシーケンスで次の単語を予測し,トレーニング中に学習した統計的なパターンに基づいて応答を提供するが,正確な情報と誤った情報を区別することができず現実とは異なる情報が混ざってしまい,ただ自身が認識するパターンに従った応答を生成してしまうことが原因でハルシネーションが発生する.ChatGPTと医学・医療に関する回答の正確性,不正確な回答のパターン,およびその原因については以下にまとめているので参照されたい.
医療従事者が対話型AI chatGPTを使う前に(AI初心者向け解説)
https://drmagician.exblog.jp/30322087/
■今回,GPT-3.5に医療コンテンツを生成させた場合のハルシネーションや不正確な参考文献の割合を評価した論文がpublishされたので紹介する.この研究では,GPT-3.5によって生成された記事について,まず商用のプログラム(Originality.AI)を使用してAIによる生成コンテンツと盗用を分析した(このソフトウェアは,テキストがAIによって生成された確率を報告し,盗用されたテキストの割合を0%から100%までのスコアで計算する).次に,システマティックレビューの専門知識を持つ2人の研究者が独立して,Medline,Google Scholar,Directory of Open Access Journalsを検索し,ChatGPTによって提供された参考文献の信頼性と正確性を確認した.捏造された参考文献と真正な参考文献の頻度,および各参考文献内の個々の要素の正確性を評価した.引用文献については,著者,タイトル,ジャーナル,年,巻,ページ,およびPubMed識別子(PMID)番号の7つの参考文献要素を評価した.

■結果は,30本の記事が生成され,盗用は少なく,平均スコアは5±7%であった.生成されたすべての記事でAIスコアが100%であり,AI検出ソフトウェアが各論文がAIによって生成されたものであると100%の確信を持っていた.115の引用文献の提示があったが,そのうちの47%は捏造(ハルシネーション),46%は論文が存在するが不正確であり,わずか7%が正確であった.7つの参考文献要素については,PMID番号の誤りが93%あり,その他,巻号の誤りは64%,ページ番号の誤りは64%,出版年の誤りは60%,ジャーナル名の誤りが54%,執筆者の誤りが52%,タイトルの誤りが48%であった.平均して,参考文献ごとに4.3±2.8個の間違った要素が含まれていた.

■GPT-3.5は現状,医師国家試験合格レベルには到達していない.加えて,医学情報の生成においてはこの研究が示す通り,まだこの程度の精度であるということである.使用する際は十分に注意が必要である.また,同時に,医師に相談する前にオンラインで情報を検索する患者も多いが,現状,ChatGPTは医療専門家の代替にはなれるほどの精度は持ち合わせてはいない(以下も参照).
人工知能(AI)に自身の症状について質問し回答を得た患者が外来に来たら?
https://drmagician.exblog.jp/30311096/
■2023年4月末に,JAMA Internal Medicinに患者の質問に対する医師とChatGPTの回答の比較を行った研究がpublishされ(PMID: 37115527),医師よりもChatGPTの方が高い品質(回答文の質感や有益性)の回答であったことが報告されたが,このJAMA Intern Medの報告では正確性を評価したのではないことに注意が必要である.

■なお,GPT-4では精度はある程度向上しているようである(以下の記事参照).
【実験】敗血症性DICに対するrTMについて人工知能のChatGPTは学習しているか?
https://drmagician.exblog.jp/30340581/
ChatGPTによって生成された医療コンテンツにおける捏造と不正確な参考文献の高い割合
Bhattacharyya M, Miller VM, Bhattacharyya D, et al. High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content. Cureus 2023; 15: e39238
PMID: 37337480
https://doi.org/10.7759/cureus.39238
Abstract

【背景】Chat Generative Pre-trained Transformer(ChatGPT,OpenAI)などの大規模言語モデルの利用により,多様なバックグラウンドを持つ個人が医療情報にアクセスできるようになった.しかし,ChatGPTの回答の正確性や医療コンテンツ生成に使用される参考文献の信頼性に関する懸念が存在している.

【方法】この観察研究では,ChatGPTが生成した医学記事の参考文献の信頼性と正確性を調査した.ChatGPT-3.5は,さまざまなトピックや治療領域を網羅した標準化されたプロンプトに基づいて,少なくとも3つの参考文献を含む医学記事30件を生成した.参考文献の信頼性と正確性は,Medline,Google Scholar,Directory of Open Access Journalsで検索することで検証された.また,ChatGPTが生成した参考文献要素の信頼性と正確性も判定した.

【結果】ChatGPTが生成した参考文献は合計115件で,平均3.8±1.1件の参考文献が各記事に含まれていた.これらの参考文献のうち,47%が捏造されたものであり,46%が信頼性はあるが不正確なものであり,わずか7%の参考文献のみが信頼性と正確性を兼ね備えていた.捏造された参考文献の発生確率はプロンプトのバリエーションによって有意に異なったが,信頼性と正確性の高い参考文献の頻度はすべての場合において低いままであった.各参考文献について評価された7つの要素のうち,PMID番号の誤りが最も一般的であり,論文の93%に記載されていた.誤った巻号(64%),ページ番号(64%),および出版年(60%)が次に頻度の高いエラーであった.平均して,参考文献ごとに7つの要素のうち4.3±2.8個が不正確であった.

【結論】この研究の結果は,ChatGPTで医療情報を検索する際には注意が必要であり,提供された参考文献の大部分が捏造または不正確であることを強調している.個人は信頼性のある情報源から医療情報を確認し,人工知能によって生成されたコンテンツにだけ頼らないようにすることが推奨される.

by DrMagicianEARL | 2023-06-21 19:08 | 医学・医療とAI

by DrMagicianEARL