■o1は無料会員には開放されていないため,少なくともこのモデルを使用するには月$20(約3000円)のサブスクリプションプランであるPlus会員になる必要がある.以下の内容を読んだ上で,自分のAI使用目的に推論タスクが入ってくるのであればPlus会員になることをおすすめする(あるいは月額3000円で数多くのAIを使用できるPoeでも使用できるようになると思われるため,そちらで使用するのもありである).なお,将来的にo1-miniは無料会員に開放される可能性があるとのことである.
■o1は使用回数制限つき(50回/週まで)で月額$20(約3000円)のサブスクプランであるPlus会員が利用できるが,pro modeに搭載されたo1-proは,使用回数無制限であるもののその10倍の月額$200(約30000円)と高額である.o1 proは特定分野で劇的な変化を起こすであろうモデルではあるが,この値段のせいでpro会員になるかかなり悩む人も多いだろう.
■pro modeを契約するかは自分のAI使用目的とo1-proが得意とするタスク(主に問題解決型推論タスクやコーディングタスクなど)が合致しているか,自分がAIを使用することで月3万円以上の価値を引き出せるか次第であり,それをもとに判断していただきたい.少なくとも,SNS(特にX)にいる「〇〇がすごい!」「今時〇〇を使うなんて脳死」というキャッチコピーを使いまくっているいわゆる「驚き屋」は各モデルが得意とするタスクの分類もあまり分かっていないので参考にしない方がよい.
■筆者はpro modeに課金してo1-proを実際に触ってみた.その感想をまとめると「o1-proはめちゃくちゃ賢くなってるけど,AIや研究を仕事にしていない個人ユーザーでは月3万円払ってまでやるほどではなく,Plus会員のo1でも十分だと思う」というのが結論である.もっとも人によっては新モデルの得意分野に需要があって3万円支払っておつりがくるほどの成果もあげられないわけではないだろう.以下にo1,o1-proについてまとめたので参考にされたし.
1.o1とは?
■o1は,コードネーム「Strawberry」として推論に焦点をあてて開発されていたAIモデルとして,そのプレビュー版が2024年9月12日にリリースされた.複雑な推論を行うために強化学習でトレーニングされており,回答する前に長くかつ深く考える特徴がある.特にchain-of-thought(思考の連鎖)はこれまではプロンプトやcustom instructionsなどで指示しないと施行しなかったが,OpenAI o1はデフォルトでこれを行う.この結果,問題解決型推論タスクを中心として,数学・化学・物理・生物学などの科学分野タスク,コーディングにおいて大幅に精度が向上したとしている.
■科学やコード生成,数学や類似の分野において複雑なタスクに取り組んでいる人にこの強化された推論能力が役立つ.例えば,医療業界の研究者は細胞のシーケンシングに関するデータに注釈を付けるために,物理学者は量子光学に必要となる複雑な数式を生成するために,分野を問わず開発者は複数の工程で構成されるワークフローを構築し実行するためにo1を使用できる.
■o1のベンチマーク評価では,o1-previewと比較して,推論系タスクでの各スコアが1.5~2倍近く高い.
■また,AIは算術が非常に苦手であり,GPT-4oもClaude-3.5-SonnetもGemini-1.5-Proも計算ミスが非常に多かったが,o1はほとんど計算ミスがない(o1-proではさらに計算ミスが起こらなくなっている).推論の性能指標となる数学の問題解決能力は,o1-previewでは,東大・京大の入試の数学で比較的簡単な問題までしか解けなかったが,o1では東大・京大の問題を超えたレベル(数学オリンピック含む)での正答率も高かった.
■コーディングに関しても非常に性能が向上し,Claude-3.5-Sonnetに圧勝しているとの声も多い.人間だと100分以上かかる最高難度のプログラミングスキルチェック問題を3分程度で解決したとのことである.
■なお,o1(あるいはo1 pro)は自分をGPT-4oと認識しており,o1モデルのスペックに関する知識を有していないため,o1にo1のことを質問しても答えてはくれない.
■「先ほどの回答を60点として100点の回答を生成してください」という,通称「パワハラプロンプト」は非常に有効との声が多い.ただし,内容によっては現実からかけ離れた回答がでてくることもある.
■比較的簡単なものに限られるが,アスキーアートが描けるようになっている.
2.o1-proとo1の違いは?
■o1もo1-proもo1-previewに比べると,数学やコーディングに関してははるかに性能が向上している.o1-proは,o1の高性能版という位置づけになっている.実際に両方は使用してみると分かるが,o1は回答までの時間がo1-previewより短い(思考がより簡潔であるため)のに対し,o1-proはむしろ時間が長くなっており,熟考している.この仕様のため,o1-proの回答の生成には時間がかかり,o1 proでは進行状況バーを表示し,別の会話に切り替えるとアプリ内通知を送信するようになっている.
■ベンチマークを見てみると1回の試行での正確性は,o1とo1-proとであまり差はない.
・数学(AIME 2024):78% vs 86%(絶対差8%)
・コーディング(Codeforces):89% vs 90%(絶対差1%)
・科学(GPQA Diamond):76% vs 79%(絶対差3%)
・数学(AIME 2024):67% vs 80%(絶対差13%)
・コーディング(Codeforces):64% vs 75%(絶対差11%)
・科学(GPQA Diamond):67% vs 74%(絶対差7%)
3.GPT-4o vs o1/o1-pro
■SNSを見ていてよくある勘違いが,「o1はGPT-4oの上位互換である」という考え方で使用しているケースである.先述の通り,o1モデルは推論能力に優れてはいるが,一方で,自然言語処理タスクや実世界の知識など複数分野ではGPT-4oを下回っており,2つのモデルは得意分野が異なっていて,目的・タスクによってGPT-4oとo1の使い分けや併用が必要である.Plus会員ではo1の使用回数は50回/週に制限されており,この回数範囲内で使用するためにも,GPT-4oの方が適しているタスクをo1にさせるような無駄遣いは避けた方がよい.
自然言語処理と推論について■以下に,使い分けの例として「論文執筆におけるGPT-4oとo1の使い分け」の考え方を提示しておく.
1.自然言語処理と推論の意味範囲の違い
- GPT-4oが得意とする自然言語処理(NLP)は,言語の理解・生成・分析といった,テキストや音声といった言語データを扱う包括的な領域を指す.この中には,文法解析,情報抽出,要約,質問応答など多種多様なタスクが含まれる.
- o1が得意とする推論(reasoning)は,与えられた情報から論理的・因果的関係を見出し,新たな結論を得る認知的プロセスを指す.テキスト生成AIにおいて「推論」と言われる場合,しばしば言語モデルが入力文脈から理に適った結論や一貫した判断を出せるか,あるいは数理的・論理的問題を解決できるかが焦点になる.
2.タスク間の相互依存性
現代の大規模言語モデル(LLM)は,テキストを扱う上で統計的パターンを学習しているだけでなく,トークン間の関係を深くモデル化することで「ある程度の推論的能力」を内包している.たとえば,質問応答タスクでは,質問文(自然言語)を理解するNLP的側面と,それに対して合理的な回答を導く推論的側面が密接に絡み合う.自然言語理解なくしては的確な推論は困難であるし,推論能力がないと高度な自然言語応答を生み出せない.
3.論理・推論タスクとNLPタスクのグラデーション
一部のタスクは「ほぼ言語処理のみ」で完結できる(単純な文法訂正や形態素解析など)一方,別のタスクは高度な推論を要求する(複雑な物語理解,数学的問題解決,因果関係推定など).この間には多くの中間的タスクがある.たとえば,記事の要約はNLP的な言語理解・生成が中心だが,重要情報を抽出する際には推論的な判断も必要となるケースがある.
論文執筆におけるGPT-4oとo1の使い分け■なお,GPT-4oは無料会員も使用可能である.
1.テーマ選定,文献検索
作業内容:研究トピック選定,関連文献リストアップ,一般的な分野動向の把握
モデル選択:GPT-4o
理由:この段階は,既存知識や一般的な文献情報の整理が主となる.高度な推論というより,膨大な情報から有用な要約を得ることが重要であり,要約・情報抽出能力が高いGPT-4oの方が得意(Webアクセス機能や各種GPTsへの切り替え機能があるのも強み).
2.文献レビュー・研究ギャップの特定
作業内容:対象領域の先行研究の深い理解,相互関連性の分析,研究ギャップの明確化
モデル選択:o1(必要に応じて)
理由:このフェーズでは多くの文献間の複雑な関係性や理論的フレームワークを構築し,どのようなギャップが存在するかを論理的・批判的に検討する必要がある.o1は複数の要素を統合的に考慮して深い推論を行えるため,有用性が高い.一方,単なる要約であればGPT-4oでも可能だが,既存研究間の高度な関連付けや新規アイデア抽出にはo1が適している.
3.研究仮説・理論的枠組みの構築
作業内容:先行研究を踏まえた新たな理論モデルや仮説の構築,論理的一貫性の検証.
モデル選択:o1
理由:ここは論文全体の「肝」であり,複雑な理論構築や前提条件の吟味,潜在的反論への対応が求められる.o1の高度な推論能力が,欠落した要素の発見や,矛盾の指摘,理論モデルの整合的強化などに役立つ.
4.研究方法・デザインの策定
作業内容:研究手法の選択,実験計画,データ収集方法,倫理的考慮点の洗い出し
モデル選択:o1(場合によりGPT-4o)
理由:複雑な研究デザイン(多変量解析手法の選定や、制約条件下での最適な実験計画など)にはo1が有効.単純な方法論の紹介程度であればGPT-4oでも対応可能.ただし,研究デザインの多要素最適化や相互作用効果の深い検討など,高度な推論が必要な場面ではo1を検討する価値がある
5.初稿執筆(導入・背景・方法章)
作業内容:文献レビュー結果や仮説,方法論をテキストとして起こす作業
モデル選択:GPT-4o
理由:この段階は基本的に既に確立したロジックを文章化する作業であり,特に高度な推論を要しない.GPT-4oの自然な文章生成能力の方が妥当.
6.結果の整理・分析
作業内容:得られたデータから統計解析,結果の要約,パターン発見
モデル選択:GPT-4oとo1を併用
理由:単純なデータまとめや統計結果の言い換えはGPT-4oで可能であるが,大量かつ複雑なデータの意味付けや統計モデル比較,潜在因子の特定,検証的因子分析などの高度推論タスクではAdvanced Data Analysis(Code Interpreter)が使用できるGPT-4oとo1の併用がよい.
7.考察・結論の構築
作業内容:結果を先行研究や仮説と突き合わせ,理論的・実践的示唆を導く.矛盾点や限界点の論理的整理
モデル選択:o1(ただし,先行研究内容を抽出要約するにはGPT-4oが必要)
理由:考察セクションは論文全体で最も高度な思考プロセスが必要とされ,結果の解釈や結論への飛躍には複数の要因を複雑に考慮する必要がある.o1は高度な推論で,多面的な視点から結果解釈をサポートできる.ただし,o1には文書ファイルをアップロードすることができない.そのため,プロンプトに先行研究内容を書く必要があり,先行研究内容を抽出要約するにはGPT-4oが必要となる.
8.文章校正・言語表現の磨き上げ
作業内容:文法・表現の修正,読みやすさ向上,ジャーナル指定のフォーマット調整
モデル選択:GPT-4o
理由:この段階は高度な推論よりも言語的な流暢さ,整合性,スタイル改善が重要であり,優れた言語能力を持つGPT-4oの得意分野である.
9.参考文献の整合性確認・引用形式統一
作業内容:参考文献の整合性チェック,引用スタイル(APA, MLA, Vancouverなど)の統一
モデル選択:GPT-4o
理由:これは機械的な作業が多く,高度な論理推論は不要であり,このような自動化支援はGPT-4oが向いている.
10.最終的な整合性チェック(論理矛盾・全体的ストーリー確認)
作業内容:論文全体を再読み込みし,論理的な飛躍,冗長性,矛盾点がないかを総合的に確認
モデル選択:GPT-4o(理想はo1だが機能制限で困難)
理由:最後のクオリティチェックでは,高度な推論能力で論理構造をトレースし,隠れた矛盾や論理的不備を発見できるo1が有用ではある.ただし,論文1本をまるまるチェックするとなれば,文書ファイルをアップロードできないo1では困難である(プロンプトに入力しようにもトークン数の上限にひっかかる).GPT-4o(あるいはClaude-3.5-SonnetやGemini-1.5Pro)が現実的であろう.
4.pro modeを使うべきか?
■ここまで述べてきた内容を読んでいれば,多くの方はpro modeを使用するかどうかについて一定の結論が出せていると思われるが,要点を整理しておく(もっともpro modeの特典はo1-proが使用できることだけではない).
■o1 proの性能と使用回数制限がないことを考えれば,事業者においては,エージェントを1人雇う,通訳者を雇う,あるいはコンサルティング業者に委託するよりも月3万のo1 proを使用する方が非常に安価といえる.
■一方で,個人が使用するならば,日々推論タスクあるいはリアルタイム音声会話機能を頻回に利用する人でない限りはメリットは乏しいだろう.先述の通り,o1とo1 proは,一貫性の差こそあれどベースの性能にそこまでの劇的な違いはなく,o1もかなり優秀である.よって,多くの個人ユーザーにとっては,新たな3万円を超えるビジネスモデル(金融投資を含む)を生み出さない限りは,月3万円支払うのはコストパフォーマンスが悪く,月3000円のo1で十分だと思われる.