【AI】ChatGPT新モデル「OpenAI o1」が登場
OpenAI o1をうまく活用するコツ■ChatGPTに新しいモデル「OpenAI o1」が2024年9月12日にリリースされた(一方でGPT-5はいつになったらでるんだとも思いましたが).以下に,利用方法,特徴,ベンチマーク評価,実際の使用感を紹介する.
・科学分野(特に数学)やコーディングタスクの場合に使用推奨
・科学分野以外のタスクや複雑な計算に関してはChatGPT-4oを推奨
・広範な知識を必要としないタスクならo1-previewよりもo1-miniを推奨(使用回数制限の関係)
・GPT-4oと違い,OpenAI o1では「シンプルかつ明確」なプロンプトを推奨
1.OpenAI o1の利用方法
■ChatGPTでは「o1-preview」として選択できる.また,より軽量で速度が速く低コストの,数学やコーディングの性能は維持されたo1-miniも同時にリリースされている.現在,OpenAI o1(以下,o1と略す)を使用できるのは,月$20のサブスクリプションプランであるChatGPT plus会員(有料会員)に限定されているが,将来的に無料会員にも開放予定とのことである.
■なお,現在,o1は無制限に使用できるわけではない.o1-previewは1週間に30回まで,o1-miniは1週間に50回までしか使用できないことに注意が必要である.このため,後述の通り得意分野が異なるGPT-4oと使い分けた方がいいだろう.また,o1-miniは軽量化した上でSTEM推論に最適化して数学やコーディング性能を維持しているモデルのため,広範な知識を必要としない数学・コーディングタスクであれば,使用回数上限が多いo1-miniを優先的に使う方がいいだろう.
■o1のAPIに関しては値段は高く,$15/1M入力トークン,$60/1M出力トークンであり,GPT-4oに比して3~4倍の料金となっている.o1-miniであれば$3/1M入力トークン,$12/1M出力トークンと比較的安価である.
2.OpenAI o1の特徴
■OpenAI o1はコードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルである.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,以下の通り,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.
■一方で,実世界の知識など複数分野ではGPT-4oを下回っており,タスクによってGPT-4oとo1の使い分けが必要である.
■また,o1は現時点ではネットアクセス(Web browsing)やファイルアップロード,Advanced Data Analysis(Code Interpreter)にもまだ対応していない.
■o1はGPT-4oとは異なり,単純なプロンプトで最高のパフォーマンスを発揮するようにできており,かつ思考プロセスが定まっている.プロンプトはシンプルかつ明確(区切り記号を使うなど)にしておかないと,パフォーマンスを妨げてしまう.
3.ベンチマーク評価
■o1は,競技プログラミング問題(Codeforces)で89パーセンタイルにランクインし,米国数学オリンピック予選で全米上位500名に入る成績を収めている.具体的には,2024年の問題において,GPT-4oの正答率は平均12%(15問中1.8問)であったのに対し,o1は平均74%(15問中11.1問),64サンプルでのコンセンサスでは83%(15問中12.5問),1000サンプルの中から学習したスコアリング関数で再ランク付けすると93%(15問中13.9問)の正答率を記録した.このスコアは本選進出基準を上回る成績である.また,物理学・生物学・化学の問題に関する評価基準(GPQA)では,人間の博士号レベルの精度を超えている.
■また,o1を化学,物理,生物学の専門知識を問うGPQAダイヤモンドという難解な知能ベンチマークで評価したところ,o1はこれらの専門家を上回る成績を収め,このベンチマークで初めて人間を超えたモデルとなった(あくまで博士号を持つ人間が解ける問題の一部においてモデルの方が優れているということ).他のいくつかの機械学習ベンチマークでも、o1は最先端の性能を上回っており,視覚認識能力が有効な場合,o1はMMMUで78.2%のスコアを記録し,初めて人間の専門家と競えるモデルとなった.また,MMLU57サブカテゴリのうち54でGPT-4oを上回った.
■国際的なプログラミングコンテストでは上位11%に入る成績を達成している.
4.使用感
■o1モデルは主に科学分野でのバージョンアップであり,それ以外についてはGPT-4oが勝っていること,プロンプト入力のコツも異なることから,科学分野,特に数学的問題解決能力やコーディングの試行を行い,より精度が上がるプロンプトを模索してきた.それをo1にも行った.その上で使用感を述べる.
(1)コーディング
■GPT-4oはコーディングが使えないと評価されてきたが,o1では大幅に向上したようであり,Claude-3.5-Sonnetと同等レベルかもしれない.o1とClaude-3.5-Sonnet,v0を組み合わせることで大きく幅が広がるだろう.ただし,私はプログラマーではなく,生成されたコードを使用して試しているだけなので,より正確な評価はプログラミングのプロの方の評価を参照されたい.
(2)推論能力
■chatGPT-4oと違い,o1は思考の連鎖と修正を繰り返し,解答にたどりつく.このためかなりきっちりした推論を出力する.ただし,超難問が解けるようになるわけではないである.
(3)探索が苦手
■「AIは選択するというプロセスが非常に苦手」ということに関連するが,「すべて求めよ」という問題文をGPT-4oは非常に苦手としていて,いくつかの具体的な数値で試行を行い,それだけで結論づけてしまい,それですべてを網羅しているのか,他に数値はないのかを論証しようとしない.残念ながらo1でもそれは同様である.この手の問題文は,プロンプトを「すべて求め,それ以外には存在しないことも証明せよ」と書き足さなければいけない.
(4)計算力(算術能力)は依然として低い
■ChatGPTに限らず,AIは推論力は向上しても,計算力は非常に悪い.これは残念ながらo1でも同様である.ChatGPT-4oはAdvanced Data Analysis(Code Interpreter)があるため,正確な計算はそちらでできる.o1はAdvanced Data Analysisは対応していないが,「Advanced Data Analysisを用いると」「mathモジュールを用いると」という文言とともに誤った応えを出力してしまうハルシネーションがしばしば起こる.このため,複雑な計算を要するタスクではGPT-4oを使用した方がよい.
(5)回答が終了しない
■o1の思考プロセスの概略は見ることはできるが,詳細なプロセスは非公開であるため,推測になるが,思考の連鎖プロセスの関係で,思考が終了せず動きっぱなしになっている可能性があり,回答文生成が終わっても次のプロンプト入力ボタンが回答生成中止ボタンのままというトラブルがよく起こる(特に難問を解決させるタスクで発生しやすい).