人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】システマティックレビューの論文抽出も一撃!ChatGPT Deep Researchが他のAIを圧倒

【AI】システマティックレビューの論文抽出も一撃!ChatGPTのDeep Researchが他モデルを圧倒
【AI】システマティックレビューの論文抽出も一撃!ChatGPT Deep Researchが他のAIを圧倒_e0255123_16573831.png

■2025年2月3日,OpenAIのChatGPTにエージェント機能としてDeep Researchが搭載された.o3をベースとした自動検索+レポート作成システムであり,ベンチマークではGoogleのGemini-2.0-Flash-ThinkingやDeepSeek-R1をはるかに上回っており,他の検索AIツール(Felo,Genspark,Perplexity)のDeep Research機能と比較して追随を許さない圧倒的性能である.OpenAIはこのDeep Researchを,汎用人工知能(AGI)の開発に向けた重要な一歩としている.

■後述する通り,医学・医療においても極めて有用で高精度な機能である.以下にChatGPT Deep Researchについて概説とシステマティックレビューへの適用結果について説明する.
Index

1.ChatGPT Deep Researchとは?
2.Deep Researchの使い方
3.Deep Researchの仕組み
4.Deep Researhの性能
5.Deep Researchを使用する際の注意点
6.Deep Researchによる驚異的な医学論文検索能力

1.ChatGPT Deep Researchとは?

■Deep Researchは,OpenAIが開発した次世代エージェントであり,ユーザーの代わりに独立して作業を遂行する.ユーザーがプロンプトを入力すると,ChatGPTが数百のオンライン情報源を検索・分析し,研究アナリストレベルの包括的なレポートを作成する.この機能は,近日公開予定のOpenAI o3モデルの改良版によって動作し,ウェブ閲覧やデータ分析に特化している.o3の推論能力を活用して,大量のテキスト,画像,PDFを検索・解釈・分析し,得られた情報に応じて調査の方向性を適宜調整する.これにより,人間なら数時間かかる作業を5~30分程度で自動的に完了する(当然待っている間は他の作業ができる).

■金融,科学,政策,エンジニアリングなどの分野で精密かつ信頼性の高い調査を必要とする知識労働者向けに設計されている.また,自動車や家電,家具など,慎重な比較検討が求められる買い物をする際にも役立つ.

2.Deep Researchの使い方

■現時点(2025年2月4日時点)では月$200のサブスクリプションであるPro会員にしか開放されていないが,今後,Plus会員(月$20のサブスクリプション)にも開放される予定である.使用回数制限があり,月100回までである.

■現時点でアプリには搭載されておらず,Web版でのみ使用可能である(Web版であればスマホも可).使い方は,ChatGPTを開き,プロンプト入力欄の下にDeep Researchというボタンがあるので,そこを選択してプロンプトを入力し,実行ボタンを押す.自動的に検索が始まるが,タスクにおいてより必要な情報があるとChatGPTが判断した場合は,ChatGPTからユーザーにいくつかの質問を提示してくることがある.これらの質問に回答すると,Deep Researchが開始となる.
【AI】システマティックレビューの論文抽出も一撃!ChatGPT Deep Researchが他のAIを圧倒_e0255123_16575413.png
■使用モデルは4oとo3-miniで可能であるが,o3-miniだとうまく作動しないことがある.4oであればファイルを添付して質問した上でのDeep Reserchも可能である.

■調査が開始されると,サイドバーに「実行したステップ」や「使用した情報源」の概要が表示されるため,進捗が分かるようになっている.所用時間はタスクにもよるが,概ね5~30分の範囲である.

■調査が完了すると通知が届き,スレッド内でレポートを受け取る(回答が出力されている).なお,OpenAIによると,今後数週間以内に画像やデータ可視化の追加機能も提供予定とのことである.

3.Deep Researchの仕組み

■Deep Researchは,ブラウザやPythonツールの使用を伴うリアルなタスクを通じて訓練され,推論モデルであるOpenAI o1 と同様の強化学習手法を用いたエンドツーエンドの訓練で開発された.その訓練を通じて,必要なデータを見つけるために多段階のタスクを計画・実行し,必要に応じてバックトラックし,リアルタイムの情報に反応することを学習している.また,このモデルは,ユーザーがアップロードしたファイルをブラウズしたり,Pythonを使ってグラフをプロットして反復したり,生成されたグラフやウェブサイトからの画像を回答に埋め込んだり,ソースから特定の文章や一節を引用したりすることもできる.

■通常のAI検索との違いとして,インターネット上の多数の情報源から検索結果を単純にまとめて示すだけではない.以下のような,検索,分析,出力のループ処理を行っている.

(1)検索して収集した情報の分析

■収集された情報を高度な推論モデルで処理し,複数の情報を比較・照合し,内容の矛盾を解消したり,関連するデータを統合して意味のある結論を導きだしたりする作業が行われる.さらに,どの情報が信頼できるかを判断し,引用元を明確にするなどの透明性も確保している.

(2)レポート作成

■そして,分析結果をもとに,専門家レベルの包括的なレポートを作成する.

(3)ループ処理

■作成したレポートで不足している情報や曖昧な部分を補うために,再度の追加の検索・分析を行うこともある.ユーザーからのタスクに対して十分な情報が得られるまで,このプロセスを何度も繰り返し,最終的なレポートを生成する.

■SNSでは,Deep Researchで使用されているモデルをo3-miniとしているポストが見られるが,使用モデルはo3-miniではなく,o3シリーズの完成形であるo3(2025年2月5日時点で未公開)の改良版である.

4.Deep Researhの性能

■OpenAIからはベンチマークでの評価結果が示された.これらから,これまでのAIモデルと比較して圧倒的に精度が向上していることが分かる.

(1)Humanity's Last Exam(HLE)

■「人類最後の試験」と名付けられたこのベンチマークは,AIが真に人間レベルの知能に到達したかどうかを判定するための究極のテストとして考案された,いわば現時点でのベンチマークの最後の砦とも言うべきものであり,その先には人工汎用知能AGI到達というゴールがある.様々な分野の専門家からなる国際的なチームによって開発され,正確性,創造性,有用性の3つの基準で評価される.

■ChatGPT Deep Researchは,このHLEでの専門レベルの試験(言語学,宇宙工学,古典学,生態学など100以上の分野)で26.6%の正解率を記録した.この成績はOpenAI o1やDeepSeek-R1,Gemini-Thinkingの成績を大幅に超えるものである
【AI】システマティックレビューの論文抽出も一撃!ChatGPT Deep Researchが他のAIを圧倒_e0255123_17161581.png
(2)GAIA

■GAIA(General AI Assessment)はAIのリアルワールド対応力を評価する公開ベンチマークである.従来のAIベンチマークは,画像認識や自然言語処理など,特定のタスクやデータセットに特化していることが多く,AIの真の能力を測るには不十分であった.GAIAは,より包括的な評価基準を設けることで,AIのリアルワールド対応力をより正確に測定することを目的としており,AIの総合的な能力を評価することで真に人間レベルの知能に近づいたAIの開発を促進することを目指している.具体的には,問題解決能力,学習能力,適応能力,コミュニケーション能力,創造性,倫理的判断能力を評価する.

■ChatGPT Deep ResearchはこのGAIAで過去最高のスコアを記録した(外部リーダーボードで1位).

(3) 専門レベルのタスク評価

■専門家による内部評価で「何時間もの調査を自動化」 できることを確認した.

5.Deep Researchを使用する際の注意点

■非常に高精度なDeep Researchであるが,いくつか注意すべき点がある.

(1)情報の新鮮さがあまり考慮されない

■ChatGPT Deep Researchは信頼度の高い情報源を優先するが,そのかわり,情報源の新鮮さをあまり考慮していない,すなわち,古い情報も分析に統合されてレポートに反映されてしまう.対策として,プロンプトで情報ソースの年月日にカットオフをもうけることで,このようなリスクは減じることができる.医学論文を検索する際は,年月日のカットオフを指示した上でPubMedを指定して検索させることで,古い情報は一切入らなくなる.

(2)結果の解釈やファクトチェックが難しい

■あらかじめ答えが分かっている内容でDeep Researchをやれば正確性などは評価できるが,日常使いとして新たにタスクを実行させた場合は話が変わってくる.Deep Researchが出力するレポート量はかなり膨大である.結果をそのままプレゼンや資料作成,論文等に転用するのは避けるべきであるのは当然であるが,問題は,この膨大な量をどのようにして扱うかである.

■結果をプレゼンや資料作成にそのまま使用した場合,その膨大な量ゆえに自分の理解度が内容に追いつかないリスクがある.同時に,ファクトチェックに関しても,ソースが示されているとはいえ,膨大であり,前述の「情報の新鮮さ」も考慮する必要がでてくるため,容易ではない(ハルシネーションは極めて少なくなったとはいえ,まだ存在する).このため,自分が扱える範囲内での使用に限定する必要がある.具体的には,情報の補充,仮説の検証などである.

(3)ネットでオープンにされている情報の範囲

■Deep ResearchのレポートはWeb上の情報に依存する.このため,Web上にはない情報や,オープンにはされていない情報源はレポートに反映されない.医学論文に至っては,公開情報がアブストラクトのみなものと全文フルオープンのものがあり,情報量の違いによる偏りも発生しうる.これらのことを踏まえて出力レポートを解釈する必要がある.

6.Deep Researchによる驚異的な医学論文検索能力

■最後に,ChatGPT Deep Researchによる他のAIモデル/ツールをはるかに凌駕する驚異的な医学論文検索能力について言及しておきたい.私は昨今SNSに跋扈するAI驚き屋(「これはすごい!」と言って過大評価する投稿を繰り返す人)ではないが,今回ばかりは驚かざるを得なかった.

■試しに,筆者は予め答えが判明している(論文リストを全て知っている)内容のPICOS(敗血症性DICに対する遺伝子組換えトロンボモデュリンのRCT)を指定して,サイトをPubMedに限定させて論文検索を行ったところ,過不足なく,すなわち,「該当する論文をすべて抽出できた上に,余計な論文を1つも抽出せず」論文リストを出力した.その時間わずか9秒である(Deep Researchが組んだ検索式でヒットした論文数は120本).

■私はこの2年間,AIを用いてシステマティックレビューを自動化する研究に取り組んできたが,人間が最も苦労する「検索でヒットした論文リストからPICOSに合致した論文の抽出工程」が最大の難所で,どのAIにさせても感度・特異度は低く,つい先日公開されたばかりのo3-mini-highによWeb検索でも,感度は高かったが特異度は非常に低いという結果であった(ノイズの論文が多数混じる).しかし,ChatGPT Deep Researchはこれをあっさりクリアしてきた.試しに他のPICOSも2つ試したが,いずれも感度100%,特異度100%という結果であった.また,筆者と同様の精度の結果を複数の医師が得ていることをSNSで確認している.

■これは,これまで非常に労力を要してきたシステマティックレビューを個人レベルでカジュアルに実行できる可能性がでてきたことを示しており,さらにはAIによるシステマティックレビューの完全自動化も目前にきていることを意味する.同時に,今後,論文執筆の際に引用文献探索は非常に容易になるだろう.月$200(2025年2月5日時点では日本円で35000円相当)という高額なサブスクリプションであるが,その価値がようやくでてきたかもしれない.
by DrMagicianEARL | 2025-02-05 17:34 | 医学・医療とAI

by DrMagicianEARL