人工知能(AI)に自身の症状について質問し回答を得た患者が外来に来たら?
■対話型AIがリリースされて徐々に使用する人が増えてきている.従来から,自分の症状をネットで検索してから医療機関を受診する人がいたことから,今後対話型AIの普及で,「AIに聞いたらこうだった」ということを外来で医師に伝える患者も増えてくることが予想される.もっともそれが医師から見ても妥当な内容ならいいのだが,そうでない場合,外来診療している皆さんはどう答えるだろうか?先に私の結論を述べておくと,「”現時点では”これまでの『ネットで調べたんですが』と対応はあまり変わらない.ただし,医師がAIについて知っておかないと足元をすくわれますよ」です.
1.対話型AIであるchatGPTで自身の症状について調べてきた実例
■2023年4月30日に以下のような記事が出た.
ENCOUNT. 患者がChatGPTで自己診断もまさかの“誤診” 外来診療の混乱も…医師が語る懸念.2023年4月30日■患者は胸痛を自覚し,chatGPTに「原因不明の胸の痛みは何か?」と聞き,さらに「原因の一覧をあげて」と聞き,chatGPTは胸痛を起こし得るであろう疾患リストを回答に挙げ,それを印刷して外来に持ってきて「この紙の鑑別全部して下さい」と言ってきたとのことである.ちなみに,最終診断は帯状疱疹であり,chatGPTの挙げた鑑別疾患には含まれていなかったとのことである.
https://encount.press/archives/448111/
■断っておくと,chatGPTは記事タイトルにあるように誤診したわけではない.単に胸痛を起こし得る疾患ともなれば膨大な数の疾患があり,chatGPTはその一部を例示したに過ぎず,ちゃんと「上記は一部であり」と言及しているのである.胸痛以外に他に情報もない以上,優先順位をつけられないためchatGPTの回答がこうなるのは当然のことである.
2.AIが有する不正確リスク
■対話型AIが持つ不正確性のリスク,医学の専門的知識が伴っていない質問(プロンプト)から生成される回答を考慮すれば,現状は今までの「ネットで調べたんですが」と言う患者と対応は変わらないだろう.ただし,「AIは正確じゃないから」と伝えるやり方には注意が必要である.確かにAIにはまだまだ「不正確さ」はあるが,ではその不正確さがどの程度なのか説明できるだろうか?不正確というよりプロンプトの問題なのか,不正確な情報がどういう時に出力されるのか,対話型AIについて調べたり実際に触ったりした医師でなければ分からないだろうし,油断していると足をすくわれることはあるだろう.
■20年ほど前,ネットがかなり普及してきた頃は,医療について患者もネットで調べる時代とされ,その頃はネットには正確な情報が多かったこともあり,医師はネットで調べてきた患者に困ったこともあったかもしれない.その後は各種情報がネットに氾濫し,SNSの普及も伴って,患者がネットで正確な情報にたどり着くのが困難になっていき,「ネットで調べた」はそこまで参考にならなくなった.現在のchatGPTをはじめとする対話型AIの登場は,それを覆す可能性がある.不正確性があるとはいえ,少なくとも昨年までの状況とは全く違うくらいの精度を対話型AIは有している.
■対話型AIは大量のテキストデータを学習し,それをもとに自然な文章を生成する能力(例えば質問に答えたり,文章を書いた入り,対話したりすることが可能)を有するコンピュータープログラムであり,膨大な情報を保有しており,それをもとに回答を生成する.使いはじめは「これはすごい」と感じるかもしれないが,使い続けるうちにいろいろと正確性の限界も見えてくる.では不正確な情報はなぜ出力されることがあるのか?分類方法にもよるが,主なものを5つあげる.
(1)学習データの不足や偏り
■AIが適切な知識や情報を持っていないため,不正確な回答が提供される.また,AIが学習データに含まれるネット上の偽の情報に基づいて学習してしまうことがあるため,不正確な情報を出力する可能性がある.また,特定のトピックや視点に偏ったデータセットを用いていた場合に発生する.情報源としてSNSを参照しないなど極力そのようなノイズは除去されるようになってはいるが,それでもノイズが混在するケースがあるため,複数の情報源からの情報を統合し,不正確な情報を排除するようにはなっている.これらの網をすり抜けても不正確な情報が出てくる可能性はある(現在それを解決するために真実性評価アルゴリズムの研究が盛んである).
(2)質問の曖昧さや誤解
■多くの患者が自分の症状について対話型AIに質問する際に起こりえるのがこのパターンと思われる.この場合,AIは質問者の意図を正しく理解できなくなり,不正確な回答が提供されることがある.対話型AIでは,どのようにうまく回答を生成させるかコツがいる.AIの回答は質問(プロンプト)の質に依存しており,プロンプトエンジニアの需要が高まっているのはそのせいである.質問が客観的かつ情報が少ないと,膨大な数の鑑別疾患リストが生成されたり,質問者の意図しない回答になったり,場合によっては誤った結果を出力することになる.一方で,医師はその症状についてより細かい内容を問診で聞き出す他,既往歴や服薬歴,その他社会的背景等様々なことを患者に尋ね,鑑別疾患を絞ったり,鑑別の優先度の高い低いを決めることができる.鑑別に必要な症状経過のポイントが分かっていないと個々の患者に合った適切な回答を引き出しにくい.
■もっとも,アスクドクターなどの医師相談サイトなどでは患者側は客観的ではなく主観的に自身の症状経過を書き込む.こういう質問の仕方ではchatGPTの回答の品質(必ずしも正確性という意味ではないが)は医師を上回るようである(詳細は後述).一方で,chatGPTなどの対話型AIに患者が自身の症状について尋ねる時,SNSでの反応を見ていると,どうもこれまでのネット検索の癖で,多くの場合はその症状だけを書き込んで質問したり,客観的な話として質問することが多い.
(3)時代遅れの情報
■AIの学習データが古い場合,現在の状況と合わない不正確な情報を出力することがある.なお,chatGPTは2021年9月までの情報しか有しておらず,それ以降に新たに出てきた情報は保有していない.これを解決するにはリアルタイムでウェブアクセスできる拡張ツールが必要となる.
(4)誤った推論や一般化
■AIが不完全な情報に基づいて誤った推論や一般化を行い,不正確な回答が提供されることがある.これは,AIが適切な知識や経験を持っていない場合や,関連性の低い情報を過剰に重視する場合に発生する.
(5)ハルシネーション
■ハルシネーション(通称「AIの幻覚」)とは,AIが生成する情報や文章が現実とは異なる,架空のものであることを示す.これは,AIが学習データをもとにしているため,正確さや現実性が必ずしも保証されないことを意味する.例えば,AIが文章を生成する際に,実在しないソースについて言及することがある.これは,AIが学習データに基づいて新たな文章を作成する際に,現実とは異なる情報が混ざってしまうことが原因である.
3.今後対話型AIが患者に活用されるようになっていくとどうなるか?
■以上から,「AIに自身の症状について聞いた」という患者が受診して,そのAIの回答に妥当性がない場合,しばらくの間は医師側の対応はこれまでの「ネットで調べたのですが」という患者と同様の対応でいいだろう.ただし,その際には患者にちゃんと説明をしておく必要がある.患者が調べてきたことを頭ごなしに否定や無視をしてしまうと信頼関係を損ねてしまうほか,AIに対する誤解も招きかねないため,患者が自分の健康に関心を持って情報収集していることは評価した上で,情報源の欠点を説明する.具体的には,以下の3点をおさえておきたい.また,これらを説明する上で,医師自身が対話型AIについて調べたり実際に触ってみて対話型AIに関する知識や使用感をもっておく必要があり,知らずに否定すると誤ったことを患者に伝えかねないことになる.
①対話型AIがあくまで一般的な情報を提供するものである■もっとも,多忙な外来診療中にそのような説明をする時間はなかなかとれないと思うかもしれないが,現状,そのような説明を要する患者が1日に自分の外来に何人来るかを考えれば,さほど労力は増さないだろうし,上記3点を踏まえて簡潔に説明する頭の整理を事前にしておけばさほど時間は要さない.
②対話型AIから正確な情報を引き出すには,専門的知識が必要である
③患者が提示する情報の信憑性を適切に評価し,AIの回答に過度に依存しないよう伝える
■なお,chatGPTで様々な質問テンプレートを試してみて分かるが,患者側が質問に慣れてくると鑑別疾患を絞り込んで受診すべき科を回答として生成させることはできるようになる.ただし,鑑別に若干漏れが発生することはあり,なぜそのような漏れがどこのアルゴリズムで発生するのかGPT自身に尋ねたところ,①テキスト情報の曖昧さや具体的でない表現,②医療専門家と同様の正確さで疾患を選択できない,という回答であった.対話型AIが患者からの質問に十分に答えられるためには,患者側の質問のスキルと対話型AIの精度の両方の向上が必須となる.
■最後に,2023年4月28日に,JAMA Internal Medicineに以下のような研究結果がpublishされたので紹介しておきたい.この研究での品質とは,回答文の質感や有益性であって,必ずしも正確性を評価したものではない.だが,今後対話型AIの精度が上がり,かつ患者側が対話型AIに慣れてきて質問の仕方を工夫したりしてきたらどうなるか?その時は我々の対応も変えていかなければならないだろう.もっともそれは決して悪い話ではなく,医師の負担を減らしてくれる可能性もある.その時はさらに踏み込んで,医師は対話型AIと共存し,うまく活用して患者の利益になるように工夫した方がいいだろう.
公共のソーシャルメディアフォーラムに投稿された患者の質問に対する医師と人工知能チャットボットの回答の比較Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med 2023 Apr 28[online ahead of print]
PMID: 37115527
https://doi.org/10.1001/jamainternmed.2023.1838
【背景】バーチャルヘルスケアの急速な拡大により,患者からのメッセージが増加し,医療従事者の仕事量と燃え尽き症候群が増加している.人工知能(AI)アシスタントは医師がレビューできる回答を作成することで患者の質問に対する回答の作成を支援する可能性がある.
【目的】2022年11月にリリースされたAIチャットボットアシスタント(ChatGPT)が,患者の質問に対して質の高い共感的な回答を提供できる能力を評価すること.
【方法】本横断研究では,公共のソーシャルメディアフォーラム(Redditのr/AskDocs)からの質問の公開されている匿名データベースを使用して,2022年10月に認証された医師が公開質問に回答した195件のやりとりを無作為に抽出した.チャットボットの回答は2022年12月22日および23日に過去の質問がセッションにない状態でオリジナルの質問を入力することによって生成された.匿名化された医師とチャットボットの回答がランダムに並べられたオリジナルの質問が資格を持つ医療従事者のチームによって3回評価された.評価者は「どちらの回答がより良いか」を選択し,提供された情報の質(非常に悪い,悪い,許容範囲,良い,非常に良い)と共感性または対面での態度(共感がない,わずかに共感的,適度に共感的,共感的,非常に共感的)を判断した.平均結果は1から5の尺度で表示され,チャットボットと医師の間で比較された.
【結果】195件の質問と回答,評価者では585回の評価のうち78.6%(95%CI 75.0%-81.8%)でチャットボットの回答を医師の回答よりも好んだ.平均(IQR)医師の回答は,チャットボットの回答よりもかなり短かった(52 [17-62]語対211 [168-245]語;t=25.4;P<0.001).チャットボットの回答は医師の回答よりも有意に高い品質と評価された(t=13.3;P>0.001).例えば,良いまたは非常に良い品質(≧4)と評価された回答の割合はチャットボットの方が医師よりも高かった(チャットボット:78.5%, 95%CI 72.3%-84.1%;医師:22.1% 95%CI 16.4%-28.2%).これは,チャットボットの良いまたは非常に良い品質の回答の割合が3.6倍高いことを意味する.また,チャットボットの回答は医師の回答よりも有意に共感的と評価された(t=18.9;P>0.001).共感的または非常に共感的(≧4)と評価された回答の割合はチャットボットの方が医師よりも高かった(医師:4.6% 95%I 2.1%-7.7%;チャットボット:45.1% 95%CI 38.5%-51.8%).これは,チャットボットの共感的または非常に共感的な回答の割合が9.8倍高いことを意味する.
【結論】本横断研究では,オンラインフォーラムで患者の質問に対して質の高い共感的な回答を生成するチャットボットが検討された.この技術のさらなる検討が臨床設定で必要とされており,例えば医師が編集できる回答を作成するためにチャットボットを使用することが含まれる.無作為化比較試験により,AIアシスタントの使用が回答の改善,医師の燃え尽き症候群の現象,および患者の転帰の改善につながるかどうかをさらに評価することができる.