【AI】無料で利用可能な革新的性能のAIモデル「GPT-4o」がリリース

Hello, GPT-4o. OpenAI 2024 May 13
https://openai.com/index/hello-gpt-4o/
■実は,このGPT-4oは事前公開されていた.多数のAIチャットボットを比較できるChatBot Arenaに,4月30日に突然GPT2-chatbotなるものが1日だけ出現し,GPT-4を上回る高性能であったことからGPT-5かと噂になっていた.そして1週間後の5月6日に派生版であるim-a-good-gpt2-chatbotとim-also-a-good-gpt2-chatbotの2つのモデルが登録され,偶然エラーメッセージでOpenAIのAPIに関連していることが発覚した.GPT-4oがリリースされた後,OpenAI社CEOのSam Altomanが,GPT2-chatbotはGPT-4oだったことを認めている.
1.GPT-4o無料開放とその使い方と制限
■ChatGPTのGPT-4は有料ユーザー(Plus会員:月$20≒3000円のサブスクリプション)しか使用できなかったが,GPT-4oは制限つきながら無料ユーザーにも開放された(全員に一度に開放できてはおらず,何日かかけて順次GPT-4oが選択できるようになる).ChatGPT-3.5よりも圧倒的に性能がいいため,ぜひ利用してみてほしい.
■無料ユーザーはチャット可能回数が有料ユーザーよりも少ない.1回のセッションで最大40回までで,制限に達した場合はChatGPT-3.5に自動的に切り替わる(有料ユーザーは無料ユーザーの5倍の200回使用できる).ただし,この制限は3時間ごとにリセットされるため,無料ユーザーでもよほど高頻度の使い方をしない限りは制限にはまずひっかからないと思われる.
■以下の機能は無料ユーザーは使用できない.特に今回のアップデートでの目玉であるリアルタイム翻訳を使用したいのであれば有料ユーザーになることをおすすめする.
画像生成機能:DALL-E3による画像生成機能の使用はできない
GPTsの作成:GPTsを使用することはできるが,自分で作成することはできない
音声会話機能:アプリでのGPT-4oによる音声会話機能は利用できない
2.GPT-4oの性能
■GPT-4oは,これまでChatGPTで一番よく使用されているテキストベースの会話はもちろんのこと,音声,画像認識能力も含めたマルチモーダル機能が大幅に強化された.モデル評価としてはELOスコアは他のAIモデルをはるかに凌駕する1310点を獲得している.

■まず目につくのは回答速度であり,ChatGPT-3.5と比較しても遜色のない速度になっている.回答精度も向上している.また,多言語に対応する能力が向上し,日本語はより流暢になっている.さらに,トークナイザーが圧縮され,日本語テキストは1.4分の1に圧縮され,より長い入力・出力が可能となった.
■テキスト評価のベンチマークでは,MMLU,GPQA,MATH,HUMANEval,MGSM,DROPの6項目で評価され,DROPこそClaude-3-Opusに勝てなかったものの,それ以外はすべてトップであった.注意点として,ベンチマークには様々な種類があり,必ずしもこの結果が絶対的な指標ではないことである.実際,GPT-4oのコード生成能力は,HUMANEvalでは最高評価だが,実際の使用感ではかなり間違いが多く,コード生成にはとても使えないという声が多い.

MMLU:幅広いタスクにわたる言語理解能力を評価するためのベンチマーク(2)音声認識
GPQA:一般的な質問応答能力を評価するためのベンチマーク
MATH:数学的な問題解決能力を評価するためのベンチマーク
HUMANEval:コード生成能力を評価するためのベンチマーク
MGSM:モデルの生成能力を多面的に評価するためのベンチマーク
DROP:段落にわたる離散的な推論能力を評価するためのベンチマーク
■音声入力(ChatGPTアプリで使用可能)は,アップデート前はChatGPT-3.5で平均2.8秒,ChatGPT-4で5.4秒の) の遅延があったが,GPT-4oではわずか0.232秒で応答でき,平均では0.320秒で,人間の応答時間とほぼ同じである.アップデート前のWhisper-v3は,「音声認識→テキスト変換→テキスト処理→音声変換」のプロセスがあったため遅延していたが,GPT-4oではテキストも音声も1つのモデルで処理するため,すべての入力と出力が同じニューラルネットワークによって処理されており,自然な対話が可能になっている.その結果リアルタイム翻訳が可能となり,その動画はSNSで多数拡散されて話題になっている(あまりのインパクトで世界中の人がリアルタイム翻訳機能を試したため,現在は過負荷でアクセスが困難になっている).

■音声翻訳パフォーマンスはアップデート前のWhisper-v3から各段に性能が向上し,それまでトップに君臨していたGeminiに匹敵するレベルである.これに加えて前述の高速な対話速度からリアルタイム翻訳が可能となり,画期的なものとなっている.ちなみに,このGPT-4oのリリースにより,言語学習・翻訳ツールなどを提供しているDuolingoなどの企業の株価が暴落している.

■視覚機能(Vision機能)も大幅に向上し,M3Exam ベンチマークは、多言語と視覚の両方の評価のベンチマークであるM3Examでは全ての言語でGPT-4を上回った.視覚認識ベンチマークでは,他の全てのAIを上回るパフォーマンスであった.例えば食べ物の写真を撮ってアップロードし,レシピやカロリー計算までできたり,これまでほとんどできなかった漫画も認識して解説できるようになっている.画像内の文字や医療系画像の認識精度も向上している.


■GPT-4oのAPIは,GPT-4-turboの速さの2倍で,価格は半分,レート制限は5倍に増加している.
(6)GPTsのGPT-4o化
■GPT-4oリリース時点ではGPTsのベースのモデルはGPT-4のままである.ただし,OpenAIは今後数週間でGPTsをGPT-4oに切り替えるとのことである.
3.GPT-4oの弱点
■SNSではGPT-4oは高性能と話題で,優秀だというポストばかりが目につくが,最高性能とは限らない.各AIには得意不得意があり,GPT-4oとて例外ではない.1年前はChatGPTの独壇場であったが,現在は競合他社からも優秀なAIがリリースされており,用途に応じて最適なAIを使い分けていくのがベストと思われる.
(1)ウェブアクセスはいまだに苦手
■ウェブアクセスして情報を得る場合,依然としてGPT-4oはハルシネーションが多い.このあたりはGemini-1.5Proの方が断然上である.用いている検索エンジンもBingで,やはりGeminiが使うGoogle検索には劣る.PerplexityでGPT-4oを使うと精度は上がるが,同じPerplexityならSonar Large 32K(Llama3ベース)を選択した方が精度は上である.
(2)論文要約能力は微妙
本ブログを読まれる方は医学論文PDFを読み込ませて解説させたりデータを抜粋させたりする用途でAI使うことも多いだろう.GPT-4oでは読み込めるPDF容量が増えたので,だいたいの医学論文は読み込んで高速で回答できるようにはなったが,論文内容全体を圧縮することはできても,重要ポイントを把握して要約する性能に関してはClaude-3やCommand-R plusの方がだいぶ上である.
(3)コードを書くのが下手
■ベンチマークではコード生成能力は高いとの評価であったが,実際の使用感ではプログラマー達から酷評されている.マルチモーダル化の代償が何かあったのかもしれない.
(4)長い動画要約は不可
■動画を読み込ませての要約機能はGemini-1.5Proの方が圧倒的に性能が上である.動画が長いほどGPT-4oはうまく要約できない.
■以下は私の個人的な意見ではあるが,各タスクでのおすすめAIである.
一般知識質問→GPT-4o
論証→GPT-4oまたはClaude-3
画像認識→GPT-4o
音声対話→GPT-4o
動画要約→Gemini-1.5Pro
翻訳→GPT-4o
PDF要約→Claude-3
ウェブアクセス→Gemini-1.5ProまたはPerplexity Sonar Large 32K
論文検索→PerplexityまたはGPT×Consensus
コード作成→Claude-3またはGPT-4-turbo
小説作成→Command-R plusまたはLlama-3
4.アプリダウンロードの際の注意
■GPT-4oのリリースで,ChatGPTのアプリを利用する方も多いが,ChatGPTを名乗る非公式アプリが多数存在するため,間違えてダウンロードしないよう注意が必要である
iOS版(App Store)
https://apps.apple.com/jp/app/chatgpt/id6448311069
アンドロイド版(Google Play)
https://play.google.com/store/apps/details?id=com.openai.chatgpt&hl=en_US&pli=1