【AI】ChatGPT-4は日本の医師国家試験で優れたパフォーマンスを見せ合格水準に達した
日本の医師国家試験におけるGPT-3.5とGPT-4のパフォーマンス:比較研究■大規模言語モデル(LLM)による対話型AIは,2022年11月のChatGPT-3の登場により飛躍的に進んでおり,2023年はAI革命とも言うべき状況になっている.現在,ChatGPTは最もポピュラーな対話型AIであり,無料で使用できるGPT-3.5と,有料会員に限定されているGPT-4がある.このChatGPTを医学/医療に応用させる試みとしての研究が盛んに行われており,既に米国の医師国家試験であるUSMLEにおいてChatGPTは合格水準を上回っていた[1,2].
Takagi S, Watari T, Erabi A, et al. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study. JMIR Med Educ 2023; 9: e48002
PMID: 37384388
https://doi.org/10.2196/48002
Abstract
【背景】ChatGPT(Chat Generative Pre-Trained Transformer)の非英語圏における能力はよく研究されていない.
【目的】本研究では,日本の医師国家試験におけるGPT-3.5(Generative Pre-trained Transformer)とGPT-4のパフォーマンスを比較し,これらのモデルの臨床的推論と医学知識への信頼性を非英語圏の言語において評価した.
【方法】本研究では,GPT-3.5に基づくChatGPTのデフォルトモード,ChatGPT PlusのGPT-4モデル,および2023年の日本の第117回医師国家試験を使用した.最終的な分析には,254の問題が含まれており,一般問題,臨床問題,および臨床長文問題の3つのタイプに分類された.
【結果】結果は,GPT-4が特に一般的な質問,臨床的な質問,および臨床的な文章の質問において,GPT-3.5よりも精度が高いことを示していた.GPT-4は,難しい問題や特定の疾患に関する問題でも優れたパフォーマンスを示した.さらに,GPT-4は医師国家試験の合格基準を達成し,非英語圏の言語における臨床的推論と医学知識への信頼性を示した.
【結論】GPT-4は,日本などの非英語圏での医学教育や臨床サポートにおいて,貴重なツールとなる可能性がある.
■しかし,これを日本に適用させられるかどうかについてはいくつかの問題がある.1つ目の問題は,非英語圏でも同様なのかである.ChatGPTは,そのトレーニングデータが主に英語であるため,英語での応答の精度が最も高い.決して精度に大きな差があるわけではないが,同じ質問を英語と日本語の両方でした場合,英語での質問の方がより正確で詳細な回答を得られる可能性が高い[3].日本語にも対応してはいるが,その能力は英語ほどには発展していない.日本語の文法や表現は英語とは大きく異なるため,その特性を理解し,適切に対応するためにはより多くの日本語データと特化したトレーニングが必要となる.
■2つ目の問題は,医療文化や社会・政治的背景の差である.医学/医療においては日本独自のものもあり,ChatGPTがそれを学習していない可能性がある.実際,私も実験してみたが,日本以外ではあまり研究されていない病態であるDICと,その治療薬であり,日本でしか承認されていない遺伝子組換えトロンボモデュリン(リコモジュリン®)の臨床エビデンスをChatGPTに質問したが,GPT-3.5では学習されていなかった(GPT-4では回答できた)[4].
■3つ目の問題として,実はChatGPTは論理的推論がやや苦手な部分がある.ChatGPTはチャット能力と正確かつ詳細な回答生成のバランスをとることで生成タスクのパフォーマンスが低下する可能性があり,論理的推論に関してはGoogle社の対話型AIであるBardの方が優れていたと報告されている[5].関連性の低い情報を過剰に重視してしまい,不完全な情報に基づいて誤った推論や一般化を行い,不正確な回答が提供されたりすることがあり,こと医学分野においてはそれが出やすい.また,これに関連して,数値を扱うこともChatGPTは苦手であり,検査値などを正確に扱えるかが課題である.
■今回の研究は,ChatGPTに日本の第117回医師国家試験問題を解かせている.性質上,ChatGPTが認識できない表,画像,下線を含む問題は除外され,最終的に254問が解析された.出題方法は実際の試験と同じく5択である.
■結果は以下の通りである.
必修問題■このように,GPT-3.5は5割前後の正答率に対し,GPT-4は8割前後の高い正答率を示し,難問に関しても実際の受験者の成績(56.3%)を上回る7割以上の正答率を維持し,合格基準に達している.
実際の受験者の正答率:89.2%
GPT-3.5:55.1%
GPT-4:87.2%
一般問題
実際の受験者の正答率:84.0%
GPT-3.5:51.5%
GPT-4:79.1%
臨床問題
実際の受験者の正答率:85.3%
GPT-3.5:50.0%
GPT-4:79.6%
臨床長文問題
実際の受験者の正答率:88.8%
GPT-3.5:50.0%
GPT-4:86.3%
難易度別:易しい
実際の受験者の正答率:98.7%
GPT-3.5:69.5%
GPT-4:87.8%
難易度別:普通
実際の受験者の正答率:90.2%
GPT-3.5:46.2%
GPT-4:77.7%
難易度別:難問
実際の受験者の正答率:56.3%
GPT-3.5:33.3%
GPT-4:73.3%
■GPT-4がGPT-3.5に比してここまでのパフォーマンス向上が得られたのにはいくつかの理由がある.1つ目は言語ごとのパフォーマンスである.ChatGPTを運営するOpenAI社は,GPT-4の非英語圏の言語でのパフォーマンスを評価し,GPT-3.5の能力と比べて24言語中24言語で高い能力を発揮したと報告している[6].2つ目は専門的で学術的な領域における情報処理能力の向上である.GPT-3.5はNPO団体CommonCrawlが集めたWebクロールデータとWikipediaのテキストを使って学習しており,GPT-4は,このGPT-3.5の学習範囲に加えてマルチモーダルなデータを使って学習しているとされる.
■このように,医師国家試験で優れたパフォーマンスを見せたGPT-4であるが,大規模言語モデルはこれだけではない.既に優れたパフォーマンスを示す医療用アプリとして利用されているGlass AI[7]は,一般に公開されているインターネットから取得したversion 1.0をアップデートさせ,全米の臨床医 (Glass Health Clinical Contributors) が作成・維持しているデータベースを基にしたversion 2.0のβ版を運用している.Google社は1月に医療領域をの焦点をあてた大規模言語モデルMed-PaLMを公開,さらに5月10日にはメジャーアップデートさせたMed-PaLM2を発表している[8].また,HippocraticAI[9]は,米国の医師国家試験や看護師試験,薬剤師試験をはじめとする114の資格試験のうち105個でGPT-4を上回るパフォーマンスを見せている[10].このような医療特化型の対話型AIにも今後期待したい.
[1] Gilson A, Safranek CW, Huang T, et al. How does ChatGPT perform on the United States Medical Licensing Examination? the implications of large language models for medical education and knowledge assessment. JMIR Med Educ 2023; 9: e45312(PMID: 36753318)
[2] Kung TH, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023; 2: e0000198(PMID: 36812645)
[3] Bender EM. The #BenderRule: on naming the languages we study and why it matters. The Gradient. 2009 Sep 14(https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/)
[4] EARLの医学ノート管理人.敗血症性DICに対するrTMについて人工知能のChatGPTは学習しているか? 2023年6月7日(https://drmagician.exblog.jp/30340581/)
[5] Xu F, Lin Q, Han J, et al. Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation From Deductive, Inductive and Abductive Views. arXiv 2023 Jun.16(http://arxiv.org/abs/2306.09841)
[6] OpenAI. GPT-4 technical report. arXiv 2023 Mar.27(https://arxiv.org/abs/2303.08774)
[7] GLASS.(https://glass.health/ai)
[8] Google Japan Blog. PalM2のご紹介.2023年5月11日(https://japan.googleblog.com/2023/05/palm-2.html)
[9] Hippocratic AI(https://www.hippocraticai.com/about)
[10] Jennings K. Hippocratic AI Raises $50 Million To Power The Healthcare Bot Workforce. Forbes May 16(https://www.forbes.com/sites/katiejennings/2023/05/16/hippocratic-ai-raises-50-million-to-power-the-healthcare-bot-workforce/)