人気ブログランキング | 話題のタグを見る
ブログトップ

EARLの医学ノート

drmagician.exblog.jp

敗血症をメインとした集中治療,感染症,呼吸器のノート.医療におけるAIについても

【AI】OpenAIの12日間の連続リリースまとめ

【AI】OpenAIの12日間の連続リリースまとめ

■ChatGPTを手掛けるOpenAIは,12/5~21の平日12日間を「12 days of OpenAI」と「題して,新モデルや新機能のリリースを立て続けに行った.インパクトのあるリリースがいくつもあり,医学・医療に応用できる機能も多数でてきている.今回の記事はそのまとめである.なお,Googleも時を同じくして多数の新モデル・機能追加をリリースしており,これは別記事で紹介する.
【AI】OpenAIの12日間の連続リリースまとめ_e0255123_13461250.png

1.新モデルのリリース

(1)推論AIモデル「o1」完成版とpro modeのリリース

■今回の12日間の発表の中で最もインパクトがあり,かつ有用なアップデートである.ChatGPTの推論強化モデルとして既にプレビュー版(o1-preview)が2024/9/12にリリースされていたが,その完成版が登場し,有料会員に開放された(Plus会員は50回/週まで使用可能).さらに,月額3万円のPro会員のみにpro modeが開放され,o1よりさらに精度が高いo1-proが無制限使用可能となった他,Advanced Voice modeやSoraなどの様々な機能の無制限使用が可能となった.これらについては12/9に詳しく記事にしているのでそちらを参照されたい.
【AI】ChatGPTにo1完成版とo1 proが搭載.pro modeに3万円も払うべき?
https://drmagician.exblog.jp/33409916/
(2)新たな推論モデルo3/o3-miniのプレビュー版発表

■o1シリーズの次のアップデートとして,o3のプレビュー版が発表された.o1の次がo2ではないのは商標権の関係とのことである.推論モデルとしてはo1をはるかに凌駕する性能で,AGI(汎用人工知能)のベンチマークではARC-AGIで87.5%という極めて高い成績であった.競技プログラミングのCodeforcesでは,人間の世界ランキングで175位と同等レベルと評価されている.非常に高度な知的作業が可能となるだろう.

■o3シリーズは2025年1月末頃より提供開始となる予定である.o3-miniは比較的安価だが,o3は1タスクあたり15万円と極めて高コストなため,企業等でなければ手は出せないだろう(いずれ値下げしていくとの話もある).

(3)動画生成AI「Sora」リリース

■OpenAIが以前から開発していた動画生成AI「Sora」がついに有料会員向けにリリースされた.Plus会員は使用制限あり,Pro会員は無制限使用可能である(年末年始期間のみPlus会員も無制限使用可).Soraは最大1080pの解像度で,最長20秒の動画を生成することが可能である.また,ワイドスクリーン,縦型,正方形など,さまざまなアスペクト比に対応している.

■なお,Soraリリースから数日後にGoogleからリリースされた動画生成AI「Veo 2」の方が精度が高いとの評価が多い.

■また,新機能「Sora Turbo」も同時にリリースされ,画像のアニメーション,動画のリミックス,ストーリーボード機能が追加され,より多彩で創造的な動画コンテンツを簡単に作成できるようになった.

2.新規の導入・拡張

(1)GPT-4oに「Canvas」機能搭載

■2024年10月4日から有料会員向けに試験提供していたサポートインターフェースであるCanvas機能を無料会員含む全会員に開放した.また,この機能はGPTsでも組み込めるようになった.医学論文執筆や資料作成ではおおいに威力を発揮するだろう.Canvas機能は以下の通りである.
Canvasでできること

- 別ウィンドウでのChatGPTとの共同作業
- 文章やコードの校正・編集の効率化
- ショートカット機能
- Python実行機能内蔵
- 外部API連携
■Canvas機能による編集はWeb版ChatGPTでしか使用できない(閲覧のみならモバイルアプリでも可能).プロンプト入力欄の左下にあるView toolボタンを押すと,一番下にCanvas機能があるのでそれを選択する.この状態でプロンプトを入力すると,回答出力とともに必要に応じて画面右側にエディタが表示され,ここでテキストの入力・編集が可能であり,内容は自動保存される.もしCanvasが自動的に作動しなかった場合は,プロンプトにCanvasを開くよう入力すれば使用できるようになる.

■右上には元に戻すボタンがあり,誤った操作の修正等で使用できる.

■エディタの右下に簡単な操作を行えるショートカット機能(絵文字追加,編集提案,長さ調整,読解レベル変更,最終調整)がある.

■CanvasにはPython実行環境が内蔵されている.これによりコード実行結果の確認やデバッグが可能である他,ライブラリも豊富なため,データ分析やグラフ作成等が可能である.さらに,Canvas上でPythonコードから外部APIへのリクエストも可能となっている.

(2)ChatGPTに画面共有でのリアルタイムのビデオ通話機能搭載

■ChatGPTのAdvanced Voice modeに動画/画面共有機能が追加された.これにより,チャット内で実際の動画撮影画面やPC画面などを共有しながらChatGPTとリアルタイムの会話ができるようになる.

医学論文やデータを画面共有して,リアルタイムでChatGPTと音声チャットすることも可能である

(3)GPT-4oにチャット管理機能「Projects」搭載

■Claudeの有料会員向けのProjects機能に類似したもので,複数のチャット履歴やアップロードファイルをプロジェクト単位で一括統合・整理できるもの.論文執筆や資料作成におおいに役立つもので,引用論文やデータなどをアップロードした上で,解析・文章生成を行っていけば非常に作業が効率化される.現時点では有料会員のみ使用可能.

■ProjectsごとにCustum Instructions(事前指示)が設定できるため,タスクごとにChatGPT全体のCustum Instructionsの設定を変更する必要がなくなり,非常に便利になった.

(4)ChatGPTのWeb検索機能「ChatGPT Reasearch」の精度が改善

■ChatGPTのWeb検索機能であるChatGPT Reasearchの精度が改善され,無料ユーザーにも開放された.また,画像や動画プレビュー,マップとの連携,Advanced Voice modeと連携した音声会話での検索も可能となった.
ChatGPT Research機能強化内容

検索エンジンとしての設定: Chrome以外のブラウザでも,ChatGPT Searchをデフォルトの検索エンジンとして設定できるようになった.
モバイルアプリでの利用: ChatGPTのモバイルアプリでもSearch機能が利用可能となった.
動画コンテンツの直接視聴: 検索結果に動画が含まれる場合,ChatGPTのインターフェース内で直接動画を視聴できるようになった.
Advanced Voice modeでの検索: 高度な音声入力でのウェブ検索が可能となった.
■ただし,依然として論文検索の性能は低いままである.

(5)開発者向けAPI更新

■o1のAPIの提供開始,Raltime APIの改善,Preference Fine-Tuning,GoやJAVA向けの公式SDK試験提供など.開発者でない限りはあまり関係のないアップデートである.

(6)WhatsAppを通じたテキストチャットが可能に

■ChatGPTに対して電話での音声対話(現時点では米国限定でフリーダイヤル1-800-CHAT-GPT(1-800-242-8478))とWhatsAppアプリを利用したテキストメッセージ対話が利用可能となった.これによりデータ接続が安定していない環境でもChatGPTが利用できるようになった.

(7)ChatGPTにWarp,Xcode,Notionとの連携機能搭載

■ChatGPTのデスクトップ版のWork With機能で,Warp,Xcode,Notion/Apple Notes/Quipとの連携が強化された.特にノート作成アプリNotionとの連携強化は医療従事者でも便利な機能だろう

3.他プラットフォームとの統合

iOSでアカウントなしでもChatGPT利用可能に

■iOS(Mac/iPad/iPhone)ユーザーにしか関係がない話ではあるが,AppleのAIアシスタントであるApple IntelligenceとChatGPTの統合が発表された.これによりSiriがユーザーのタスク内容に応じてChatGPTを呼び出し,文章生成や画像生成,Vision機能による情報取得が可能となる.現時点では英語対応しかしておらず(日本で使用するにはた対応地域の設定を英語設定にすることで利用できる),2025年4月以降に日本語対応もなされるとのことである.

■対象デバイスはiPhoneでは16または15Pro以降のもの,iPadではA17 pro/M1以降のもの,MacではM1以降のものに限られる.
iOSでの主な内容

Siriとの連携: ユーザーはSiriを通じてChatGPTにアクセスし,複雑な質問やタスクの処理を依頼できる.これにより,音声コマンドで高度な情報取得やタスク実行が可能となる.
執筆ツールの強化: Appleの執筆ツール内で,ChatGPT画文章の構想から生成,編集までをサポートする.さらに,AIによる画像生成機能も統合され,視覚的なコンテンツ作成が容易になる.
カメラ機能との連携: iPhone 16シリーズのカメラ機能を活用し,撮影した写真や動画の内容をChatGPTが解析し,関連情報や提案を提供する.これにより,ユーザーは撮影したコンテンツに基づく情報を即座に得ることができる.

4.研究プログラム発表

Reinforcement Fine-Tuning(RFT)

■o1の強化学習ファインチューニング機能がリリースされ,特定のタスク用のカスタマイズ性が向上した.この技術は,数十から数千の高品質なタスクを用いてモデルをカスタマイズし,特定の分野における精度向上を目指すものである.特に,法律,保険,医療,金融,エンジニアリングなどの分野での活用が期待されている.

■RFTは、提供された参照回答を基にモデルの応答を評価し,類似の問題に対する推論方法を強化することで専門的なタスクにおける精度向上を実現する.このプログラムは2025年初頭に一般公開を予定しており,現在,研究機関や企業向けにアルファ版の提供が開始されている.
by DrMagicianEARL | 2024-12-23 14:06 | 医学・医療とAI

by DrMagicianEARL