【AI/論文】医学/医療におけるChatGPTがはらむエラーと一貫性欠如のリスク
大規模言語モデルの能力評価:米国外科医資格試験問題集に対するGPT4のパフォーマンス1.本研究内容
Beaulieu-Jones BR, Shah S, Berrigan MT, et al. Evaluating Capabilities of Large Language Models: Performance of GPT4 on American Board of Surgery Qualifying Exam Question Banks. medRxiv 2023 Jul.19
https://doi.org/10.1101/2023.07.16.23292743
Abstract
【背景】人工知能(AI)は,我々が病気を診断し治療する方法を強化することで,医療を劇的に変える可能性がある.OpenAIによって訓練された大規模汎用言語モデルであるChatGPTは,その有望なAIモデルの一つである.チャットインターフェースは,いくつかの専門的および学術的なベンチマークで堅実な人間レベルのパフォーマンスを示している.我々は,外科症例問題に対するそのパフォーマンスと安定性を探ることを目指した.
【方法】我々は,ChatGPT-4のパフォーマンスを二つの外科知識評価,すなわち,Resident Educationの外科評議会(SCORE)と,Data-Bと呼ばれる二つ目の一般的に使用される知識評価で評価した.問題は二つの形式で入力された:開放型と選択型.ChatGPTの出力は,外科医評価者によって正確さと洞察力の観点から評価された.我々は,モデルのエラーの理由と,再度遭遇した際のパフォーマンスの安定性を分類した.
【結果]合計167のSCOREと112のData-Bの問題がChatGPTインターフェースに提示された.ChatGPTは,選択型のSCOREとData-Bの問題のそれぞれ71%と68%を正確に回答した.開放型と選択型の両方の問題に対して,ChatGPTの回答の約三分の二が非自明な洞察を含んでいた.不正確な回答の一般的な理由は次のとおりであった:複雑な問題における不正確な情報(n=16,36.4%);事実に基づく問題における不正確な情報(n=11,25.0%);状況的な不一致を伴う正確な情報(n=6,13.6%).再度の問い合わせに対して,ChatGPTが選択した答えは不正確な問題の36.4%で変わった;回答の正確さは6/16の問題で変わった.
【結論】以前の研究結果と一致して,我々は外科領域内でのChatGPTの堅実な人間レベルまたはそれ以上のパフォーマンスを示す.この研究で特有のこととして,我々はChatGPTの回答に再問い合わせすると大幅な不一致があることを示した.この結果は,今後の考慮を必要とし,これらのモデルをさらに訓練して安全で一貫した回答を提供する機会を提供する.精神的および/または概念的なモデルがなければ,ChatGPTのような言語モデルが医療提供者を安全に支援することができるかどうかは不明である.
■本研究でChatGPTに入力した問題は,2つの一般的に使用される外科教育リソースを用いている(ChatGPTは画像認識ができないため画像問題は除外).
SCORE:米国外科医資格試験(ABS)と外科教育協会(ASE)を含む,米国の外科教育に関与する主要な組織によって2004年に設立された非営利組織Surgical Council on Resident Education(SCORE)の選択式の自己評価問題■この2つの問題データベースから抽出されたものを,ChatGPTへの入力のために,以下2つの方法(記述式と選択式)でフォーマットされた.
Data-B:臨床外科医とシニア外科研修医のための教育リソースであり,内分泌,血管,腹部,消化管,乳房,頭部と首,腫瘍学,周術期ケア,外科重症ケア,および皮膚/軟部組織を含む一般外科の領域全体にわたる症例ベースの選択問題を含んでいる.
オープンエンド(OE)プロンプト:すべての回答選択肢を削除し,既存の問題をオープンエンドのフレーズに翻訳することで構築された.例えば:「この患者にとって最良の初期治療は何ですか?」;「この診断とリスク要因を持つ患者に対して,最も適切な手術アプローチは何ですか?」;または「この患者の症状の原因を特定するための最も適切な初期診断テストは何ですか?」■おおまかな結果は以下のようにまとめることができる.
選択肢(MC)単一回答:SCOREまたはData-Bの元の問題を逐語的に複製することで作成された.例えば:「適切な心臓ワークアップの後,次のうちどの手術を行うべきですか?」;「この患者における虚血性腸の存在を最も強く示唆する以下の実験室値はどれですか?」;または「次の選択肢のうち,最良の次の治療ステップはどれですか?」
パフォーマンス:ChatGPTは外科領域において人間レベルまたはそれ以上のパフォーマンスを示し,MC SCOREとData-Bの問題に対してそれぞれ71%と68%の正確さを達成した.2.内部不一致,一貫性欠如の原因と解決策
内部一致性:ChatGPTの応答の内部一致性は非常に高く,記述式のSCOREとData-Bの問題に対してそれぞれ85.6%と100%,選択式のSCOREとData-Bの問題に対してそれぞれ88.6%と97.3%を達成した.
※ここでの内部一致性は,ChatGPTが提供する解答とその解説が一致しているか,または,選択肢を否定する説明が解答を支持し,他の選択肢を否定しているかどうかを評価している.例えば,ChatGPTが「Aが最善の選択肢である」と答え,その後の説明で「しかし,Bも有効な選択肢である」と述べた場合,これは内部一致性がないとみなされる.
不正確な回答:ChatGPTの不正確な応答の最も一般的な理由は,複雑な問題における不正確な情報(36.4%),事実に基づいた問題における不正確な情報(25.0%),そして正確な情報,状況による不一致(13.6%)であった.
同一問題に対する一貫性:不正確なChatGPTの応答に対して,同じMC SCOREの問題が新しいチャットを使用して再提示されたとき,応答の正確さは前回と同様に評価された.全体として,ChatGPTが選択した答えは16の問題(不正確な問題の36.4%)で反復間で変動した.
■大規模言語モデルを医学/医療に用いる上で,正確性,一貫性はかなり重視されるため,ここの改善は必要であろう.本論文執筆者らは,AI開発側に改善すべき点を提言すると同時に,医学/医療領域での使用に警鐘を鳴らしている.しかし,ユーザー側の使用方法,特にプロンプトの入力方法には触れていない.少なくともChatGPTを使用する以上,回答の質はユーザーが入力するプロンプトの質に大きく依存する.ここでは,論文内容から離れて,ChatGPTの仕様とユーザー側のプロンプト入力の工夫について述べる.
(1)ChatGPTの設計
■内部不一致性はモデルの理解の限界からきている.ChatGPTは大量のテキストデータから学習しているが,それは人間のように意味を理解するわけではなく,与えられた入力に対して最も確率的に適切なテキストを生成することを学習している.したがって,特定の質問の意図やニュアンスを完全に理解することはできない.
■同一の質問をスレッドを変えてChatGPTに行うと回答が変わるという一貫性欠如に関しては,この論文では「初めて評価した研究である」と考察で述べているが,そんなことはない(2023年4月にReiss[1]が報告し,Krippendorff's alphaで定量的に評価している).そもそも,ChatGPTおいては当たり前の仕様で,多くのユーザーが経験している常識でもあるが,本論文執筆者らは考察で全く言及しておらず,ChatGPTの具体的な仕様(サンプリングアルゴリズム[2])をあまり知らないのかもしれない.
■同一の質問に対するChatGPTの回答が異なる理由は,その設計と学習方法に由来する.ChatGPTは,大量のテキストデータからパターンを学習する人工知能で,特定の「答え」を持っているわけではない.それはある程度のランダム性を持っており,それにより多様な回答を生成することができる.
■また,ChatGPTは文脈に基づいて回答を生成する.同じ質問でも,その前後の会話の文脈が異なれば,異なる回答を生成することがある.これは,人間が同じ質問に対して異なる文脈で異なる回答をするのと似ている.
■さらに,ChatGPTは完全に決定的なアルゴリズムではなく,ある程度の確率的な要素が含まれている.これは,同じ入力に対しても異なる出力を生成することを可能にする.これにより,ChatGPTはより自然な会話を模倣することができる.
(2)ユーザー側のプロンプトの工夫
■内部不一致リスクについては,ユーザー側はプロンプトを入力する際に,質問内容を明確にし,同時にコンテキスト(質問の背景情報)とタスク(質問内容と回答方法)をはっきりと記載することで内部不一致リスクを軽減できる.
■一貫性の欠如リスクについては,ユーザー側のプロンプト入力の際に以下の点に注意する.
明確な指示を与える:質問内容が曖昧なほど回答の幅は広くなる.逆にChatGPTに対する質問や指示が明確であればあるほど,一貫した回答を得る可能性が高まる.具体的な情報を提供し,何を求めているのかを明確にすると良い.
文脈を提供する:ChatGPTは前のメッセージの文脈に基づいて回答を生成する.したがって,同じ質問を繰り返す際には前回の質問と回答の文脈を維持することが重要である.
質問の再構成を避ける:同じ質問を異なる形で繰り返すと,ChatGPTはそれを新しい質問として解釈する可能性がある.したがって,質問を繰り返す際には可能な限り同じ形式で質問することが推奨される.ChatGPTはプロンプト内の単語のわずかな違いでも敏感に反応して回答に大きく影響してしまう[1].
パラメータ設定を調整する:ChatGPT-3.5では,出力の一貫性を制御するためのパラメータである「Temperature」と「Top P」の調節機能が提供されており,プロンプトでパラメータ値を指示することで,ChatGPTが出力する回答を調節することができる.このパラメータ調節はGPT-4には搭載されていないが,それでもプロンプト(もしくはCustom instructionsの設定)に入力すると,GPT-4はそのパラメータ値に沿った回答出力を模倣する.
・Temperatureパラメータは,ChatGPTが生成するテキストの「確定性」を調整する.テキスト生成の際に出力される単語はいくつか選択肢があり,どれを選択して出力するかは,学習データに基づいたその単語ごとの確率に依存している.Temperatureパラメータが低いほど,確率が高い単語をより選択するようになる.Temperatureパラメータのデフォルトは1.0,下限は0.01,上限は無制限になっている.
・Top Pパラメータは,ChatGPTが選択する単語の選択肢の範囲を制御する.Top Pパラメータが低いほど,比較的確率が高い単語に選択肢が絞られる.Temperatureパラメータと違い,確率の高い出力をしつつ多様性もいくぶんかは維持する.Top Pパラメータのデフォルトは1.0,下限は0.1,上限は1.0である.
・一貫性を重視するなら,Temperatureパラメータを上げるか,Top Pパラメータを下げるとよい.しかし,これは一見よさそうに見えるが,ChatGPTが学習した内容にバイアスがある場合,そのバイアスがさらに出やすくなるというデメリットを有することに注意が必要である.
複数回出力させて最頻値を採用する:同じ入力を複数回行って回答を分類し,その中で最も多く出た分類(最頻値)を最終的な結果とする.この手法によりChatGPTのランダム性による影響を緩和できる.[1]
[1] Reiss MV. Testing the Reliability of ChatGPT for Text Annotation and Classification: A Cautionary Remark. arXiv 2023 Apr.17(arXiv:2304.11085)