人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】OpenAIの12日間の連続リリースまとめ

■ChatGPTを手掛けるOpenAIは,12/5~21の平日12日間を「12 days of OpenAI」と「題して,新モデルや新機能のリリースを立て続けに行った.インパクトのあるリリースがいくつもあり,医学・医療に応用できる機能も多数でてきている.今回の記事はそのまとめである.なお,Googleも時を同じくして多数の新モデル・機能追加をリリースしており,これは別記事で紹介する.
【AI】OpenAIの12日間の連続リリースまとめ_e0255123_13461250.png

1.新モデルのリリース

(1)推論AIモデル「o1」完成版とpro modeのリリース

■今回の12日間の発表の中で最もインパクトがあり,かつ有用なアップデートである.ChatGPTの推論強化モデルとして既にプレビュー版(o1-preview)が2024/9/12にリリースされていたが,その完成版が登場し,有料会員に開放された(Plus会員は50回/週まで使用可能).さらに,月額3万円のPro会員のみにpro modeが開放され,o1よりさらに精度が高いo1-proが無制限使用可能となった他,Advanced Voice modeやSoraなどの様々な機能の無制限使用が可能となった.これらについては12/9に詳しく記事にしているのでそちらを参照されたい.
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?
https://drmagician.exblog.jp/33409916/
(2)新たな推論モデルo3/o3-miniのプレビュー版発表

■o1シリーズの次のアップデートとして,o3のプレビュー版が発表された.o1の次がo2ではないのは商標権の関係とのことである.推論モデルとしてはo1をはるかに凌駕する性能で,AGI(汎用人工知能)のベンチマークではARC-AGIで87.5%という極めて高い成績であった.競技プログラミングのCodeforcesでは,人間の世界ランキングで175位と同等レベルと評価されている.非常に高度な知的作業が可能となるだろう.

■o3シリーズは2025年1月末頃より提供開始となる予定である.o3-miniは比較的安価だが,o3は1タスクあたり15万円と極めて高コストなため,企業等でなければ手は出せないだろう(いずれ値下げしていくとの話もある).

(3)動画生成AI「Sora」リリース

■OpenAIが以前から開発していた動画生成AI「Sora」がついに有料会員向けにリリースされた.Plus会員は使用制限あり,Pro会員は無制限使用可能である(年末年始期間のみPlus会員も無制限使用可).Soraは最大1080pの解像度で,最長20秒の動画を生成することが可能である.また,ワイドスクリーン,縦型,正方形など,さまざまなアスペクト比に対応している.

■なお,Soraリリースから数日後にGoogleからリリースされた動画生成AI「Veo 2」の方が精度が高いとの評価が多い.

■また,新機能「Sora Turbo」も同時にリリースされ,画像のアニメーション,動画のリミックス,ストーリーボード機能が追加され,より多彩で創造的な動画コンテンツを簡単に作成できるようになった.

2.新規の導入・拡張

(1)GPT-4oに「Canvas」機能搭載

■2024年10月4日から有料会員向けに試験提供していたサポートインターフェースであるCanvas機能を無料会員含む全会員に開放した.また,この機能はGPTsでも組み込めるようになった.医学論文執筆や資料作成ではおおいに威力を発揮するだろう.Canvas機能は以下の通りである.
Canvasでできること

- 別ウィンドウでのChatGPTとの共同作業
- 文章やコードの校正・編集の効率化
- ショートカット機能
- Python実行機能内蔵
- 外部API連携
■Canvas機能による編集はWeb版ChatGPTでしか使用できない(閲覧のみならモバイルアプリでも可能).プロンプト入力欄の左下にあるView toolボタンを押すと,一番下にCanvas機能があるのでそれを選択する.この状態でプロンプトを入力すると,回答出力とともに必要に応じて画面右側にエディタが表示され,ここでテキストの入力・編集が可能であり,内容は自動保存される.もしCanvasが自動的に作動しなかった場合は,プロンプトにCanvasを開くよう入力すれば使用できるようになる.

■右上には元に戻すボタンがあり,誤った操作の修正等で使用できる.

■エディタの右下に簡単な操作を行えるショートカット機能(絵文字追加,編集提案,長さ調整,読解レベル変更,最終調整)がある.

■CanvasにはPython実行環境が内蔵されている.これによりコード実行結果の確認やデバッグが可能である他,ライブラリも豊富なため,データ分析やグラフ作成等が可能である.さらに,Canvas上でPythonコードから外部APIへのリクエストも可能となっている.

(2)ChatGPTに画面共有でのリアルタイムのビデオ通話機能搭載

■ChatGPTのAdvanced Voice modeに動画/画面共有機能が追加された.これにより,チャット内で実際の動画撮影画面やPC画面などを共有しながらChatGPTとリアルタイムの会話ができるようになる.

医学論文やデータを画面共有して,リアルタイムでChatGPTと音声チャットすることも可能である

(3)GPT-4oにチャット管理機能「Projects」搭載

■Claudeの有料会員向けのProjects機能に類似したもので,複数のチャット履歴やアップロードファイルをプロジェクト単位で一括統合・整理できるもの.論文執筆や資料作成におおいに役立つもので,引用論文やデータなどをアップロードした上で,解析・文章生成を行っていけば非常に作業が効率化される.現時点では有料会員のみ使用可能.

■ProjectsごとにCustum Instructions(事前指示)が設定できるため,タスクごとにChatGPT全体のCustum Instructionsの設定を変更する必要がなくなり,非常に便利になった.

(4)ChatGPTのWeb検索機能「ChatGPT Reasearch」の精度が改善

■ChatGPTのWeb検索機能であるChatGPT Reasearchの精度が改善され,無料ユーザーにも開放された.また,画像や動画プレビュー,マップとの連携,Advanced Voice modeと連携した音声会話での検索も可能となった.
ChatGPT Research機能強化内容

検索エンジンとしての設定: Chrome以外のブラウザでも,ChatGPT Searchをデフォルトの検索エンジンとして設定できるようになった.
モバイルアプリでの利用: ChatGPTのモバイルアプリでもSearch機能が利用可能となった.
動画コンテンツの直接視聴: 検索結果に動画が含まれる場合,ChatGPTのインターフェース内で直接動画を視聴できるようになった.
Advanced Voice modeでの検索: 高度な音声入力でのウェブ検索が可能となった.
■ただし,依然として論文検索の性能は低いままである.

(5)開発者向けAPI更新

■o1のAPIの提供開始,Raltime APIの改善,Preference Fine-Tuning,GoやJAVA向けの公式SDK試験提供など.開発者でない限りはあまり関係のないアップデートである.

(6)WhatsAppを通じたテキストチャットが可能に

■ChatGPTに対して電話での音声対話(現時点では米国限定でフリーダイヤル1-800-CHAT-GPT(1-800-242-8478))とWhatsAppアプリを利用したテキストメッセージ対話が利用可能となった.これによりデータ接続が安定していない環境でもChatGPTが利用できるようになった.

(7)ChatGPTにWarp,Xcode,Notionとの連携機能搭載

■ChatGPTのデスクトップ版のWork With機能で,Warp,Xcode,Notion/Apple Notes/Quipとの連携が強化された.特にノート作成アプリNotionとの連携強化は医療従事者でも便利な機能だろう

3.他プラットフォームとの統合

iOSでアカウントなしでもChatGPT利用可能に

■iOS(Mac/iPad/iPhone)ユーザーにしか関係がない話ではあるが,AppleのAIアシスタントであるApple IntelligenceとChatGPTの統合が発表された.これによりSiriがユーザーのタスク内容に応じてChatGPTを呼び出し,文章生成や画像生成,Vision機能による情報取得が可能となる.現時点では英語対応しかしておらず(日本で使用するにはた対応地域の設定を英語設定にすることで利用できる),2025年4月以降に日本語対応もなされるとのことである.

■対象デバイスはiPhoneでは16または15Pro以降のもの,iPadではA17 pro/M1以降のもの,MacではM1以降のものに限られる.
iOSでの主な内容

Siriとの連携: ユーザーはSiriを通じてChatGPTにアクセスし,複雑な質問やタスクの処理を依頼できる.これにより,音声コマンドで高度な情報取得やタスク実行が可能となる.
執筆ツールの強化: Appleの執筆ツール内で,ChatGPT画文章の構想から生成,編集までをサポートする.さらに,AIによる画像生成機能も統合され,視覚的なコンテンツ作成が容易になる.
カメラ機能との連携: iPhone 16シリーズのカメラ機能を活用し,撮影した写真や動画の内容をChatGPTが解析し,関連情報や提案を提供する.これにより,ユーザーは撮影したコンテンツに基づく情報を即座に得ることができる.

4.研究プログラム発表

Reinforcement Fine-Tuning(RFT)

■o1の強化学習ファインチューニング機能がリリースされ,特定のタスク用のカスタマイズ性が向上した.この技術は,数十から数千の高品質なタスクを用いてモデルをカスタマイズし,特定の分野における精度向上を目指すものである.特に,法律,保険,医療,金融,エンジニアリングなどの分野での活用が期待されている.

■RFTは、提供された参照回答を基にモデルの応答を評価し,類似の問題に対する推論方法を強化することで専門的なタスクにおける精度向上を実現する.このプログラムは2025年初頭に一般公開を予定しており,現在,研究機関や企業向けにアルファ版の提供が開始されている.
# by DrMagicianEARL | 2024-12-23 14:06 | 医学・医療とAI
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14563272.png
■AI業界で久々に大きな更新があったためここに紹介する.2024年9月12日にChatGPTに推論モデルであるo1-previewとo1-miniが登場し,推論タスクに対して優れた回答を生成するとして話題となっていたが,このモデルはpreviewと名がついている通りo1モデル完成前の初期段階のプレビューとしてのお披露目であった.そしてようやくPlus会員向けに完成版のo1が12月5日にリリースされ,さらには月額$200(約3万円)のサブスクリプションプランであるpro modeも同時にリリースされ,o1よりさらに優れているo1-proも登場した.

■o1は無料会員には開放されていないため,少なくともこのモデルを使用するには月$20(約3000円)のサブスクリプションプランであるPlus会員になる必要がある.以下の内容を読んだ上で,自分のAI使用目的に推論タスクが入ってくるのであればPlus会員になることをおすすめする(あるいは月額3000円で数多くのAIを使用できるPoeでも使用できるようになると思われるため,そちらで使用するのもありである).なお,将来的にo1-miniは無料会員に開放される可能性があるとのことである.

■o1は使用回数制限つき(50回/週まで)で月額$20(約3000円)のサブスクプランであるPlus会員が利用できるが,pro modeに搭載されたo1-proは,使用回数無制限であるもののその10倍の月額$200(約30000円)と高額である.o1 proは特定分野で劇的な変化を起こすであろうモデルではあるが,この値段のせいでpro会員になるかかなり悩む人も多いだろう.

■pro modeを契約するかは自分のAI使用目的とo1-proが得意とするタスク(主に問題解決型推論タスクやコーディングタスクなど)が合致しているか,自分がAIを使用することで月3万円以上の価値を引き出せるか次第であり,それをもとに判断していただきたい.少なくとも,SNS(特にX)にいる「〇〇がすごい!」「今時〇〇を使うなんて脳死」というキャッチコピーを使いまくっているいわゆる「驚き屋」は各モデルが得意とするタスクの分類もあまり分かっていないので参考にしない方がよい.

■筆者はpro modeに課金してo1-proを実際に触ってみた.その感想をまとめると「o1-proはめちゃくちゃ賢くなってるけど,AIや研究を仕事にしていない個人ユーザーでは月3万円払ってまでやるほどではなく,Plus会員のo1でも十分だと思う」というのが結論である.もっとも人によっては新モデルの得意分野に需要があって3万円支払っておつりがくるほどの成果もあげられないわけではないだろう.以下にo1,o1-proについてまとめたので参考にされたし.

1.o1とは?

■o1は,コードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルとして,そのプレビュー版が2024年9月12日にリリースされた.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,問題解決型推論タスクを中心として,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.

■科学やコード生成,数学や類似の分野において複雑なタスクに取り組んでいる人にこの強化された推論能力が役立つ.例えば,医療業界の研究者は細胞のシーケンシングに関するデータに注釈を付けるために,物理学者は量子光学に必要となる複雑な数式を生成するために,分野を問わず開発者は複数の工程で構成されるワークフローを構築し実行するためにo1を使用できる.

■o1のベンチマーク評価では,o1-previewと比較して,推論系タスクでの各スコアが1.5~2倍近く高い.

■また,AIは算術が非常に苦手であり,GPT-4oもClaude-3.5-SonnetもGemini-1.5-Proも計算ミスが非常に多かったが,o1はほとんど計算ミスがない(o1-proではさらに計算ミスが起こらなくなっている).推論の性能指標となる数学の問題解決能力は,o1-previewでは,東大・京大の入試の数学で比較的簡単な問題までしか解けなかったが,o1では東大・京大の問題を超えたレベル(数学オリンピック含む)での正答率も高かった.

■コーディングに関しても非常に性能が向上し,Claude-3.5-Sonnetに圧勝しているとの声も多い.人間だと100分以上かかる最高難度のプログラミングスキルチェック問題を3分程度で解決したとのことである.

■なお,o1(あるいはo1 pro)は自分をGPT-4oと認識しており,o1モデルのスペックに関する知識を有していないため,o1にo1のことを質問しても答えてはくれない.

■「先ほどの回答を60点として100点の回答を生成してください」という,通称「パワハラプロンプト」は非常に有効との声が多い.ただし,内容によっては現実からかけ離れた回答がでてくることもある.

■比較的簡単なものに限られるが,アスキーアートが描けるようになっている.

2.o1-proとo1の違いは?

■o1もo1-proもo1-previewに比べると,数学やコーディングに関してははるかに性能が向上している.o1-proは,o1の高性能版という位置づけになっている.実際に両方は使用してみると分かるが,o1は回答までの時間がo1-previewより短い(思考がより簡潔であるため)のに対し,o1-proはむしろ時間が長くなっており,熟考している.この仕様のため,o1-proの回答の生成には時間がかかり,o1 proでは進行状況バーを表示し,別の会話に切り替えるとアプリ内通知を送信するようになっている.

■ベンチマークを見てみると1回の試行での正確性は,o1とo1-proとであまり差はない.
・数学(AIME 2024):78% vs 86%(絶対差8%)
・コーディング(Codeforces):89% vs 90%(絶対差1%)
・科学(GPQA Diamond):76% vs 79%(絶対差3%)
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14175922.png
■一方,AIは回答が確率的な部分もあって,同じ質問でも回答にはばらつきが生じ,一貫性がないことも多い.そこで,4回の試行のうち4回全てで正解した場合にのみ(「4/4 の信頼性」)問題を解決したとみなした場合のo1とo1-proの正確性が以下であり,o1-proの一貫性の高さがうかがえる.
・数学(AIME 2024):67% vs 80%(絶対差13%)
・コーディング(Codeforces):64% vs 75%(絶対差11%)
・科学(GPQA Diamond):67% vs 74%(絶対差7%)
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14241874.png
■なお,使用回数については,Plus会員だとo1は50回/週に制限されているのに対し,Pro会員では無制限となっている.

3.GPT-4o vs o1/o1-pro

■SNSを見ていてよくある勘違いが,「o1はGPT-4oの上位互換である」という考え方で使用しているケースである.先述の通り,o1モデルは推論能力に優れてはいるが,一方で,自然言語処理タスクや実世界の知識など複数分野ではGPT-4oを下回っており,2つのモデルは得意分野が異なっていて,目的・タスクによってGPT-4oとo1の使い分けや併用が必要である.Plus会員ではo1の使用回数は50回/週に制限されており,この回数範囲内で使用するためにも,GPT-4oの方が適しているタスクをo1にさせるような無駄遣いは避けた方がよい.
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14350461.png
■推論と自然言語処理は二項対立的な軸上で捉えるものではないが,以下にその違いを説明しておく.
自然言語処理と推論について

1.自然言語処理と推論の意味範囲の違い
- GPT-4oが得意とする自然言語処理(NLP)は,言語の理解・生成・分析といった,テキストや音声といった言語データを扱う包括的な領域を指す.この中には,文法解析,情報抽出,要約,質問応答など多種多様なタスクが含まれる.
- o1が得意とする推論(reasoning)は,与えられた情報から論理的・因果的関係を見出し,新たな結論を得る認知的プロセスを指す.テキスト生成AIにおいて「推論」と言われる場合,しばしば言語モデルが入力文脈から理に適った結論や一貫した判断を出せるか,あるいは数理的・論理的問題を解決できるかが焦点になる.

2.タスク間の相互依存性
現代の大規模言語モデル(LLM)は,テキストを扱う上で統計的パターンを学習しているだけでなく,トークン間の関係を深くモデル化することで「ある程度の推論的能力」を内包している.たとえば,質問応答タスクでは,質問文(自然言語)を理解するNLP的側面と,それに対して合理的な回答を導く推論的側面が密接に絡み合う.自然言語理解なくしては的確な推論は困難であるし,推論能力がないと高度な自然言語応答を生み出せない.

3.論理・推論タスクとNLPタスクのグラデーション
一部のタスクは「ほぼ言語処理のみ」で完結できる(単純な文法訂正や形態素解析など)一方,別のタスクは高度な推論を要求する(複雑な物語理解,数学的問題解決,因果関係推定など).この間には多くの中間的タスクがある.たとえば,記事の要約はNLP的な言語理解・生成が中心だが,重要情報を抽出する際には推論的な判断も必要となるケースがある.
■以下に,使い分けの例として「論文執筆におけるGPT-4oとo1の使い分け」の考え方を提示しておく.
論文執筆におけるGPT-4oとo1の使い分け

1.テーマ選定,文献検索
作業内容:研究トピック選定,関連文献リストアップ,一般的な分野動向の把握
モデル選択:GPT-4o
理由:この段階は,既存知識や一般的な文献情報の整理が主となる.高度な推論というより,膨大な情報から有用な要約を得ることが重要であり,要約・情報抽出能力が高いGPT-4oの方が得意(Webアクセス機能や各種GPTsへの切り替え機能があるのも強み).

2.文献レビュー・研究ギャップの特定
作業内容:対象領域の先行研究の深い理解,相互関連性の分析,研究ギャップの明確化
モデル選択:o1(必要に応じて)
理由:このフェーズでは多くの文献間の複雑な関係性や理論的フレームワークを構築し,どのようなギャップが存在するかを論理的・批判的に検討する必要がある.o1は複数の要素を統合的に考慮して深い推論を行えるため,有用性が高い.一方,単なる要約であればGPT-4oでも可能だが,既存研究間の高度な関連付けや新規アイデア抽出にはo1が適している.

3.研究仮説・理論的枠組みの構築
作業内容:先行研究を踏まえた新たな理論モデルや仮説の構築,論理的一貫性の検証.
モデル選択:o1
理由:ここは論文全体の「肝」であり,複雑な理論構築や前提条件の吟味,潜在的反論への対応が求められる.o1の高度な推論能力が,欠落した要素の発見や,矛盾の指摘,理論モデルの整合的強化などに役立つ.

4.研究方法・デザインの策定
作業内容:研究手法の選択,実験計画,データ収集方法,倫理的考慮点の洗い出し
モデル選択:o1(場合によりGPT-4o)
理由:複雑な研究デザイン(多変量解析手法の選定や、制約条件下での最適な実験計画など)にはo1が有効.単純な方法論の紹介程度であればGPT-4oでも対応可能.ただし,研究デザインの多要素最適化や相互作用効果の深い検討など,高度な推論が必要な場面ではo1を検討する価値がある

5.初稿執筆(導入・背景・方法章)
作業内容:文献レビュー結果や仮説,方法論をテキストとして起こす作業
モデル選択:GPT-4o
理由:この段階は基本的に既に確立したロジックを文章化する作業であり,特に高度な推論を要しない.GPT-4oの自然な文章生成能力の方が妥当.

6.結果の整理・分析
作業内容:得られたデータから統計解析,結果の要約,パターン発見
モデル選択:GPT-4oとo1を併用
理由:単純なデータまとめや統計結果の言い換えはGPT-4oで可能であるが,大量かつ複雑なデータの意味付けや統計モデル比較,潜在因子の特定,検証的因子分析などの高度推論タスクではAdvanced Data Analysis(Code Interpreter)が使用できるGPT-4oとo1の併用がよい.

7.考察・結論の構築
作業内容:結果を先行研究や仮説と突き合わせ,理論的・実践的示唆を導く.矛盾点や限界点の論理的整理
モデル選択:o1(ただし,先行研究内容を抽出要約するにはGPT-4oが必要)
理由:考察セクションは論文全体で最も高度な思考プロセスが必要とされ,結果の解釈や結論への飛躍には複数の要因を複雑に考慮する必要がある.o1は高度な推論で,多面的な視点から結果解釈をサポートできる.ただし,o1には文書ファイルをアップロードすることができない.そのため,プロンプトに先行研究内容を書く必要があり,先行研究内容を抽出要約するにはGPT-4oが必要となる.

8.文章校正・言語表現の磨き上げ
作業内容:文法・表現の修正,読みやすさ向上,ジャーナル指定のフォーマット調整
モデル選択:GPT-4o
理由:この段階は高度な推論よりも言語的な流暢さ,整合性,スタイル改善が重要であり,優れた言語能力を持つGPT-4oの得意分野である.

9.参考文献の整合性確認・引用形式統一
作業内容:参考文献の整合性チェック,引用スタイル(APA, MLA, Vancouverなど)の統一
モデル選択:GPT-4o
理由:これは機械的な作業が多く,高度な論理推論は不要であり,このような自動化支援はGPT-4oが向いている.

10.最終的な整合性チェック(論理矛盾・全体的ストーリー確認)
作業内容:論文全体を再読み込みし,論理的な飛躍,冗長性,矛盾点がないかを総合的に確認
モデル選択:GPT-4o(理想はo1だが機能制限で困難)
理由:最後のクオリティチェックでは,高度な推論能力で論理構造をトレースし,隠れた矛盾や論理的不備を発見できるo1が有用ではある.ただし,論文1本をまるまるチェックするとなれば,文書ファイルをアップロードできないo1では困難である(プロンプトに入力しようにもトークン数の上限にひっかかる).GPT-4o(あるいはClaude-3.5-SonnetやGemini-1.5Pro)が現実的であろう.
■なお,GPT-4oは無料会員も使用可能である.

4.pro modeを使うべきか?

■ここまで述べてきた内容を読んでいれば,多くの方はpro modeを使用するかどうかについて一定の結論が出せていると思われるが,要点を整理しておく(もっともpro modeの特典はo1-proが使用できることだけではない).
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?_e0255123_14353711.png
■pro modeは月額$200(約3万円)の高額プランである.このプランの特典はo1-proが使用できることに加え,o1やo1-proの無制限使用,さらにはAdvanced Voice機能の無制限使用が可能である.Advanced Voice機能は,2024年9月24日より全ユーザーが利用可能なモードで,様々な言語を識別し,複雑な会話に対して高速で返答文と音声を生成する,リアルタイムの会話(あるいは同時通訳)が可能なモードである.このモードは無料会員では15分/日,Plus会員では45分/日前後使用すると制限がかかるため,これが無制限に使用できるのは大きい.

■o1 proの性能と使用回数制限がないことを考えれば,事業者においては,エージェントを1人雇う,通訳者を雇う,あるいはコンサルティング業者に委託するよりも月3万のo1 proを使用する方が非常に安価といえる.

■一方で,個人が使用するならば,日々推論タスクあるいはリアルタイム音声会話機能を頻回に利用する人でない限りはメリットは乏しいだろう.先述の通り,o1とo1 proは,一貫性の差こそあれどベースの性能にそこまでの劇的な違いはなく,o1もかなり優秀である.よって,多くの個人ユーザーにとっては,新たな3万円を超えるビジネスモデル(金融投資を含む)を生み出さない限りは,月3万円支払うのはコストパフォーマンスが悪く,月3000円のo1で十分だと思われる.
# by DrMagicianEARL | 2024-12-09 17:00 | 医学・医療とAI
ChatGPT新モデル「OpenAI o1」が登場
OpenAI o1をうまく活用するコツ
・科学分野(特に数学)やコーディングタスクの場合に使用推奨
・科学分野以外のタスクや複雑な計算に関してはChatGPT-4oを推奨
・広範な知識を必要としないタスクならo1-previewよりもo1-miniを推奨(使用回数制限の関係)
・GPT-4oと違い,OpenAI o1では「シンプルかつ明確」なプロンプトを推奨
■ChatGPTに新しいモデル「OpenAI o1」が2024年9月12日にリリースされた(一方でGPT-5はいつになったらでるんだとも思いましたが).以下に,利用方法,特徴,ベンチマーク評価,実際の使用感を紹介する.

1.OpenAI o1の利用方法

■ChatGPTでは「o1-preview」として選択できる.また,より軽量で速度が速く低コストの,数学やコーディングの性能は維持されたo1-miniも同時にリリースされている.現在,OpenAI o1(以下,o1と略す)を使用できるのは,月$20のサブスクリプションプランであるChatGPT plus会員(有料会員)に限定されているが,将来的に無料会員にも開放予定とのことである.

■なお,現在,o1は無制限に使用できるわけではない.o1-previewは1週間に30回まで,o1-miniは1週間に50回までしか使用できないことに注意が必要である.このため,後述の通り得意分野が異なるGPT-4oと使い分けた方がいいだろう.また,o1-miniは軽量化した上でSTEM推論に最適化して数学やコーディング性能を維持しているモデルのため,広範な知識を必要としない数学・コーディングタスクであれば,使用回数上限が多いo1-miniを優先的に使う方がいいだろう

■o1のAPIに関しては値段は高く,$15/1M入力トークン,$60/1M出力トークンであり,GPT-4oに比して3~4倍の料金となっている.o1-miniであれば$3/1M入力トークン,$12/1M出力トークンと比較的安価である.

2.OpenAI o1の特徴

■OpenAI o1はコードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルである.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,以下の通り,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.

■一方で,実世界の知識など複数分野ではGPT-4oを下回っており,タスクによってGPT-4oとo1の使い分けが必要である.

■また,o1は現時点ではネットアクセス(Web browsing)やファイルアップロード,Advanced Data Analysis(Code Interpreter)にもまだ対応していない

■o1はGPT-4oとは異なり,単純なプロンプトで最高のパフォーマンスを発揮するようにできており,かつ思考プロセスが定まっている.プロンプトはシンプルかつ明確(区切り記号を使うなど)にしておかないと,パフォーマンスを妨げてしまう

3.ベンチマーク評価

■o1は,競技プログラミング問題(Codeforces)で89パーセンタイルにランクインし,米国数学オリンピック予選で全米上位500名に入る成績を収めている.具体的には,2024年の問題において,GPT-4oの正答率は平均12%(15問中1.8問)であったのに対し,o1は平均74%(15問中11.1問),64サンプルでのコンセンサスでは83%(15問中12.5問),1000サンプルの中から学習したスコアリング関数で再ランク付けすると93%(15問中13.9問)の正答率を記録した.このスコアは本選進出基準を上回る成績である.また,物理学・生物学・化学の問題に関する評価基準(GPQA)では,人間の博士号レベルの精度を超えている.

■また,o1を化学,物理,生物学の専門知識を問うGPQAダイヤモンドという難解な知能ベンチマークで評価したところ,o1はこれらの専門家を上回る成績を収め,このベンチマークで初めて人間を超えたモデルとなった(あくまで博士号を持つ人間が解ける問題の一部においてモデルの方が優れているということ).他のいくつかの機械学習ベンチマークでも、o1は最先端の性能を上回っており,視覚認識能力が有効な場合,o1はMMMUで78.2%のスコアを記録し,初めて人間の専門家と競えるモデルとなった.また,MMLU57サブカテゴリのうち54でGPT-4oを上回った.

■国際的なプログラミングコンテストでは上位11%に入る成績を達成している.

4.使用感

■o1モデルは主に科学分野でのバージョンアップであり,それ以外についてはGPT-4oが勝っていること,プロンプト入力のコツも異なることから,科学分野,特に数学的問題解決能力やコーディングの試行を行い,より精度が上がるプロンプトを模索してきた.それをo1にも行った.その上で使用感を述べる.

(1)コーディング
■GPT-4oはコーディングが使えないと評価されてきたが,o1では大幅に向上したようであり,Claude-3.5-Sonnetと同等レベルかもしれない.o1とClaude-3.5-Sonnet,v0を組み合わせることで大きく幅が広がるだろう.ただし,私はプログラマーではなく,生成されたコードを使用して試しているだけなので,より正確な評価はプログラミングのプロの方の評価を参照されたい.

(2)推論能力
■chatGPT-4oと違い,o1は思考の連鎖と修正を繰り返し,解答にたどりつく.このためかなりきっちりした推論を出力する.ただし,超難問が解けるようになるわけではないである.

(3)探索が苦手
■「AIは選択するというプロセスが非常に苦手」ということに関連するが,「すべて求めよ」という問題文をGPT-4oは非常に苦手としていて,いくつかの具体的な数値で試行を行い,それだけで結論づけてしまい,それですべてを網羅しているのか,他に数値はないのかを論証しようとしない.残念ながらo1でもそれは同様である.この手の問題文は,プロンプトを「すべて求め,それ以外には存在しないことも証明せよ」と書き足さなければいけない.

(4)計算力(算術能力)は依然として低い
■ChatGPTに限らず,AIは推論力は向上しても,計算力は非常に悪い.これは残念ながらo1でも同様である.ChatGPT-4oはAdvanced Data Analysis(Code Interpreter)があるため,正確な計算はそちらでできる.o1はAdvanced Data Analysisは対応していないが,「Advanced Data Analysisを用いると」「mathモジュールを用いると」という文言とともに誤った応えを出力してしまうハルシネーションがしばしば起こる.このため,複雑な計算を要するタスクではGPT-4oを使用した方がよい

(5)回答が終了しない
■o1の思考プロセスの概略は見ることはできるが,詳細なプロセスは非公開であるため,推測になるが,思考の連鎖プロセスの関係で,思考が終了せず動きっぱなしになっている可能性があり,回答文生成が終わっても次のプロンプト入力ボタンが回答生成中止ボタンのままというトラブルがよく起こる(特に難問を解決させるタスクで発生しやすい).
# by DrMagicianEARL | 2024-09-13 11:42 | 医学・医療とAI
AI検索最強のPerplexityに強力なライバルが登場「Genspark」
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11174822.png
■AI検索では1年余りの間,Perplexityが無双状態であったが,ここにきてその地位を脅かす強力なライバル「Genspark」が2024年6月18日に登場した.Genspark社は,Baidu(百度)の元幹部が設立した企業(本社はカリフォルニア州パロアルト)である.

■Gensparkの売りは「無料」「速い」「Sparkpagesの充実性」であろう.特に,Sparkpages機能は,医学情報においては,レビュー論文ばりの詳細情報を即座に生成することができる

1.Gensparkの機能

(1)複数のAIモデルを使用して検索情報からSparkpagesを生成
■Gensparkは,同社で訓練されたモデルに加え,OpenAI社,Anthropic社などのサードパーティーモデルも含む複数のAIモデルプロバイダーを使用して情報をインデックス化して要約する.結果は,AI生成サマリーの提示に加えて,1ページにカスタマイズされた,Wikipediaのような詳細なSparkpagesを生成してリンクを表示する.権威性や人気が高いWebページを優先し,信頼性の低い情報を排除している.また,生成したSparkpagesにはAIによるCopilot機能がついている他,Sparkpagesを他者にシェアすることもできる.

(2)ユーザーの検索行動を学習
■Gensparkは,ユーザーの検索行動を学習し,個々のニーズに合わせたカスタマイズされた情報を提供できる.

(3)無料で使用可能
■現時点ではGensparkはβ版であり,無料で提供されている.ゆくゆくはサブスクリプションプランも組むとのことである.

(4)生成速度が非常に速い
■実際に触ってみると分かるが,Gensparkの検索結果生成速度は非常に速い.検索結果のサマリーだけならPerplexityと同程度と感じるかもしれないが,それに加えて詳細なSparkpagesも同時に完成させるため,トータルの速度は断然Gensparkが早い.

2.Gensparkでの医学情報の検索

■Gensparkは旅行や画像,商品の情報を前面に押し出しているが,医療・医学情報にも強く,検索結果のサマリー生成とその引用サイトはPerplexityにひけをとらない質の回答を生成する他,Sparkpagesはかなり充実しており,例えば治療薬についての検索だと「治療目的」「効果のエビデンス」「投与方法」「研究結果の比較」「副作用と注意点」「ガイドラインの推奨」「まとめと結論」といった,さながらレビュー論文ばりのまとめを即座に生成する.PerplexityにもPerplexity Pagesがあるが,Sparkpagesに比べてかなり時間がかかる.

■↓検索結果サマリー(Directed Answer by AI)
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11243485.png
■↓Sparkpages
【AI】AI検索最強のPerplexityに強力なライバルが登場「Genspark」_e0255123_11260485.png

■Perplexityよりも劣る点では以下のことがあげられる.
・AcademicやWritingといったフィルター機能がない
・Perplexityに比して情報の最新性がやや劣る
・ファイルアップロード機能がない
・APIがない
・アプリがない

# by DrMagicianEARL | 2024-06-28 11:34 | 医学・医療とAI
最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18174338.png
■2024年6月21日にAnthropic社のAIモデルClaudeシリーズに最新のClaude-3.5-Sonnetが登場した(今年度末には3.5でのHaikuやOpusもリリース予定).精度向上のみならず,新たなArtifactよるPreview機能がビジュアル的にインパクトがあってか,SNSでは絶賛されているが,使用するとなれば,無料ではすぐにレート制限にひっかかってしまい,短時間しか使えない.さらに,プロジェクトごとにファイルアップロード(Knowledge)と事前の指示(Instructions)ができるbot機能を使用できるProjects機能が6月25日に搭載されたが,これは無料ユーザーには開放されていない.

■最近はAIのアップデート,新しいツールの登場などが目まぐるしい中,課金すべきか悩むケースも多いと思われる.では,Claude-3.5-Sonnetにはどのような人が課金すべきか?代替手段はないのか?このあたりについてこの記事では扱う.

1.Claude-3.5-Sonnetの性能

■Claude-3.5-Sonnetは確かに高性能で,「LLMのベンチマークではGPT-4oを超えて最強」とSNSでは湧き上がっているが,この手のベンチマーク比較については話半分に聞いておいた方がよい(新しいモデルがでるたびにこういう騒ぎが起こるが,過剰評価であることもしばしばで,後で評価が逆転することもある).なので,LLMとしての精度だけで課金しようとするのはおすすめしない今回のアップデートは,LLMの精度向上というよりもむしろ,Claudeの新しいオプション機能による利便性が大幅に増した,というのがポイントで,ここに自分のAIを使う目的がマッチするかどうかである.
Claude-3.5-Sonnetの注目すべきポイント
・回答速度の速さ
・API利用料金の安さ
・Artifact機能
・Projects機能
(1)回答速度の速さ
■Claude-3.5-Sonnetの性能はClaude-3シリーズで最強と言われているOpusを上回っており,その回答速度はOpusの2倍である.他者のLLMとのベンチマークでの比較は参考程度にとどめておいた方がいいが,同じClaude同士の比較では確かにOpusより高性能である.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18183292.png
(2)APIの安さ
■APIを使用しない方には関係ない話であるが,最近,OpenAIもGoogleもAPIの料金の安さで競争しているかのような低コスト化が進んでおり,Anthropic社もそれに乗っかった形となった.入力トークン100万あたり$3,出力トークン100万あたり15$で,トークンコンテキストウィンドウは20万(200K)である.これはClaude-3-Opus/Sonnetのみならず,GPT-4oやGemini-1.5Proよりも安く,1000文字の入力で1円程度である($1=¥155,1文字2トークンと換算した場合).APIは従量制であるため,どの程度値段がかかるのか使用してみなければ分からないという恐怖心がある人も多いが,ここまで安くなると使いやすいのではないだろうか?
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18195752.png
(3)Artifact機能
■Claude-3.5-Sonnetで最もインパクトがあるのがこの機能であろう.この機能はアプリ版では使用できず,Web版のみ可能である.Claude-3.5-Sonnetのページでアカウント(設定)をクリックし,[Feature Preview]を選択してArtifactsを[On]に設定すれば使用できる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18211905.png
■Artifactsには以下の6つの機能が搭載されている.

- コード:プログラミング言語で書かれたコードスニペットやスクリプトを表示する.シンタックスハイライトが適用されており,コードの構文に基づいた色分けが行われて読みやすくなっている.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18221447.png
- ドキュメント:プレーンテキストやMarkdown形式のドキュメントを表示する.長文のテキスト,説明文,レポートなどに適している.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18233217.png
- HTML:HTML形式のコンテンツを表示する.HTML,CSS,JavaScriptを含む単一ファイルのウェブページを表示でき,インタラクティブな要素を含むことができる.ホームページ作成に適している.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18240022.png
- Scalable Vector Graphics (SVG):一言で言えば図形や簡単な絵などの描画機能である.SVGはウェブやその他の環境で使用される2次元のベクター画像を定義するためのXMLベースのファイル形式であり,ベクター形式のグラフィックスを表示できる.ベクター画像は数式で描画されるため,どの解像度でも鮮明に表示され,直接編集しやすく,要素の位置や形状,色などを手軽に変更できる.軽量なため,ウェブページの読み込み速度を向上させることができる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18243874.png
- Mermaid図:Mermaid記法で書かれた図表を表示できる.具体的には,フローチャート,シーケンス図,ガントチャート,マインドマップなどの図表を簡単に作成できる.テキストベースで図表を定義できるため,修正や更新が容易である.同様の機能はGPTsにもあるが,Artifactsでは事前に日本語表記できる点が異なる.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18250418.png
- Reactコンポーネント:ReactはFacebookによって開発されたオープンソースのJavaScriptライブラリであり,主にユーザーインターフェース(UI)の構築に使用されている.要は,ウェブページの一部分を作るための「部品」のようなものである.例えば,ボタン,フォーム,カードなどのUI要素を作ることができる.ボタンやフォーム(クリックしたり,テキストを入力したりできる部品),データの表示(グラフや表で情報を見やすく表示できる),シンプルなゲーム(簡単なクイズやパズルのようなゲームを作れる)などが可能である.
【AI】最新のClaude-3.5-Sonnetをどう使うか?課金すべきか?_e0255123_18260550.png
■「Claude-3.5-Sonnetはスライドも作成できる」との話もあるが,これは間違いである.確かに,プロンプトで指示するとあたかもスライド生成ができるようには見える.しかし,このArtifact機能にはスライド生成機能はなく,上記の6つの機能を組み合わせて,プレゼンテーションのような内容を生成し,スライドを模倣しているというのが実際である.

■このArtifact機能を活用する上で肝となるのが「Preview」である.Previewは生成されたArtifactの内容をユーザーに即座に表示する機能であり,これにより,ユーザーは,コードだけでは分かりにくい作成されたコンテンツを直接視覚的に確認し,必要に応じて修正や調整を要求することができる.まさにプログラムができない人でもコードを扱いやすくするためのツールである.

■このPreviewが非常にインパクトが高いためSNSでは話題性が高いが,Artifacts機能を扱う上でのその本質はPreviewではなく,コード生成能力の高さにある.もともとClaudeはChatGPTなどの他のLLMよりもコード生成能力が高く,Claude-3.5-Sonnetではさらに精度が向上している.その精度に自信がなければ,このようなPreview機能はつけられなかっただろう.同時に,このPreviewはダウンロードはできない.もっとも,特定のデータを可視化して自分にとって理解しやすい形にする上ではその場では便利で,例えば,論文を読み込ませた上で内容・データをビジュアル化させるのは一つの手である.だが,そこでせっかく生成されたコードを活用できなければ宝の持ち腐れでもある.

(4)Projects機能
■Projects機能は,Claude-3.5-Sonnetリリースから数日遅れで追加された機能で,有料会員であるProもしくはTeamのユーザーしか使用できない.この機能は早い話が自分専用のbotを作成できる機能である.GPTsと似ているが,Webアクセス機能やActionによる外部API呼び出し機能,Advanced Data Analysis(旧Code Interpreter)ほどの機能は有していない.

- ファイルアップロード登録機能
■knowledgeとしてドキュメントやコードなどのファイルをアップロードでき,会話の際にそのファイルを参照してくれるようになる.1つのプロジェクトにつき,アップロードできるファイルの上限は200kトークンであり,書籍で言うとや500ページほどの量である(NotebookLMには遠く及ばない).

- Custom Instructions機能
■ChatGPTにもあるような,事前の指示をそのプロジェクトにおいて守らせることができる,「自分だけのチャットbot」の機能である.

2.Claude-3.5-Sonnetをどう使う?課金は必要?

■前述の通り一通りの機能を説明したが,ここからはどう使うかである.ただ普通に会話するだけならChatGPTもあるので,わざわざ課金する必要はないだろう.無料のままでいいのか,有料(月$20≒3100円のサブスクリプション)で使用するかはここが大きな分岐点である.当ブログの性質上,読者が医療従事者であるため,医療従事者を想定した内容に限定することになるが,ここの読者が使用するとなると第一に考えることと言えば学術的な内容であろう.

(1)論文の理解のための使用
■Claude-3.5-Sonnetは論文の解説がうまい.加えて,内容をデータも含めてビジュアル的に分かりやすくする上では非常に使い勝手がいい.となれば,あとは1日にどれくらいの本数の論文を読み込ませるかしだいである.
考え方

1日2~3本程度
 →無料がおすすめ

まとまった時間に何本も読み込ませたい
 →選択肢1:有料化
 →選択肢2:ChatGPT-4o(無料)を使う
(2)ガイドラインや通知文書等,まとまった情報の理解
■ガイドラインやレビュー論文,厚労省などの通知文書などを読み込ませてFAQのbot代わりに使うことも可能である.ただし,毎回アップロードするのではなく,あらかじめファイルをアップロードしたbotを作っておくと便利で,このような使い方をする際は有料のProjects機能が便利である.ただし,同様の機能を有する代替手段は無料のものも含めて多い.
考え方

多量の参照文書のbot的使い方はしない
 →無料がおすすめ

多量の参照文書のbotを作成して使用したい
 →選択肢1:有料でProjects機能を使う(Artifacts機能付きで使いたいなら特におすすめ)
 →選択肢2:既にChatGPTの有料ユーザーならGPTsを使う
 →選択肢3:Cozeで自作する(無料.モデルはClaude-3.5-Sonnetを含め様々なAIから選択できる)
 →選択肢4:NotebookLMで自作する(無料)
 →選択肢5:Poe.comで自作する(使用回数制限はあるが無料.モデルはClaude-3.5-Sonnetを含め様々なAIから選択できる)
 →選択肢6:easy-peasy.AIで自作する(有料.NotebookLMのような特化bot,GPTsのような創造性もあるbotのどちらも作成可能)
(3)論文を書く
■論文生成にも使用できるが,論文生成となればそれなりの会話頻度になるため,無料で使用するのは現実的ではないだろう.有料で使うにしても,既にChatGPT-4oが無料で使用できる他,論文生成を支援してくれるGPTsは既にいくつか公開されているので,そちらを使うのがいいだろう.
考え方

Claude-3.5-Sonnetはおすすめしない.既存の論文生成を支援してくれるGPTsを使用する.
(4)スライド作成
■アウトラインを考えてくれたり,スライドに使用するデータをまとめる上では有用だが,それは他のAIでも可能である.なにより誤解してはいけないのは,前述の通り,Claude-3.5-SonnetのArtifacts機能はスライド生成機能はなく,HTML等を使用した模倣であり,提示されたコードを使用してもスライドは作れない.
考え方

Claude-3.5-Sonnetはおすすめしない.ChatGPT-4o,あるいは既存のスライド生成を支援してくれるGPTsを使用する.
(5)データの解析
■ChatGPTのAdvanced Data Analysis(旧Code Interpreter)ように,プログラムを独自にUI上で走らせて解析してくれる機能までは備わっていないが,コード生成機能自体は全AIモデルの中でほぼトップであり,そのコードを用いて自分のPC(あるいはコードが使用できるGoogle Colaboratoryなどのプラットフォーム)で動かす上では非常に有用である.ChatGPTのAdvanced Data Analysisが精度があまりよくなくて失敗しやすいことを考えれば,Claude-3.5-Sonnetの使用はおすすめである.コード生成する上では会話回数も多くなることから,有料での使用がおすすめである.
考え方

無料はおすすめしない.

選択肢1:有料で使用する(コードを使用するための他のアプリケーションを使用する必要はある).
選択肢2:ChatGPT-4oのAdvanced Data Analysisを使用する(無料.精度は落ちるが,解析をAI上で済ませてしまいたい場合はおすすめ)

# by DrMagicianEARL | 2024-06-26 18:31 | 医学・医療とAI

by DrMagicianEARL