【AI/論文】現在のChatGPT-4は2023年3月と比較して大幅に性能が落ちている可能性
■では実際に2023年の3月と6月で性能は変わったのかを検証した研究結果がarXivにpublishされた.結果は,想像以上にGPT-4の性能が低下していたというもので,とりわけ数学的問題の解決能力は97.6%から2.4%まで著しく落ちていた.一方で,GPT-3.5では数学的問題の解決能力は大幅に向上していた.センシティブな質問への直接的な回答率は,GPT-4で21%から5%に減少,GPT-3.5で2%から8%に増加.コード生成タスクでは,直接実行可能なコードの割合がGPT-4で52%から10%に,GPT-3.5で22%から2%に低下した.視覚的推論タスクでは,正確な一致率がGPT-4で27.4%から24.6%に,GPT-3.5で12.2%から10.3%に微減した.

■例えば,「17077が素数であるかどうかを判断する問題」について,GPT-4の2023年3月のバージョンはchain-of-thoughtの指示に非常によく従った.まず,タスクを4つのステップに分解した.17077が偶数であるかを確認し,17077の平方根を見つけ,それより小さいすべての素数を取得し,17077がこれらの数のいずれかで割り切れるかを確認した.次に,それぞれのステップを実行し,最終的に17077が確かに素数であるという正しい答えに到達した.しかし,chain-of-thoughtは6月のバージョンでは機能しなかった.回答は中間ステップを生成せず,単に「No」という答えを生成した.
■また,一般論として,大規模言語モデルでのこのようなパフォーマンス変化は以下の理由で変化する可能性がある.
1.データの変化:モデルが更新されるたびに新しいデータが追加され,既存のデータが修正される可能性がある.これにより,モデルのパフォーマンスが変化する可能性がある.
2.モデルの設計変更:モデルのアーキテクチャや学習アルゴリズムが変更されると,モデルのパフォーマンスも変化する.
3.バイアスの修正:モデルの更新は,しばしばバイアスの修正や問題の解決を目指して行われる.これらの修正は,一部のタスクに対するパフォーマンスを改善する一方で,他のタスクに対するパフォーマンスを低下させる可能性がある.
4.過学習:モデルが特定のタスクに過度に最適化されると,他のタスクに対するパフォーマンスが低下する可能性がある.これは過学習と呼ばれ,モデルの汎用性を損なう可能性がある.
■ただし,論文では,大規模言語モデルのパフォーマンスを評価するために4つの異なるタスクを使用しているが,これらのタスクがどのように選ばれ,それらが大規模言語モデルの全体的なパフォーマンスをどの程度反映しているのかについては明確に説明されていない.これらのタスクが大規模言語モデルの全体的な能力を適切に評価するための代表的なものであるとは限らないため,結果の一般化には注意が必要である.また,論文では,GPT-3.5とGPT-4の異なるバージョンを評価しているが,これらの評価を他の研究者が再現できるようにするための詳細な情報(例えば,使用した具体的なプロンプトや評価手順)が不足している.また,前述のWelinder氏が言う「むしろ賢くなっている」が本当なのであれば,これらの数学的問題の解決能力等以外の部分の性能は向上している可能性もある.もっとも,サードパーティープラグイン機能やCode Interpreter機能が搭載された以上,GPT-4では数学的問題の解決能力はそこまで必要ないのかもしれない.
ChatGPTのパフォーマンスは時間とともにどのように変化しているのか?
Chen L, Zaharia M, ZouHow J. is ChatGPT's behavior changing over time? arXiv 2023 Jul.18
https://arxiv.org/abs/2307.09009
Abstract
GPT-3.5とGPT-4は最も広く使用されている大規模言語モデル(LLM)サービスである.しかし,これらのモデルがいつどのように更新されているのかは不明確である.ここでは,2023年3月と6月のバージョンのGPT-3.5とGPT-4を,1)数学的問題の解決,2)センシティブな質問への回答,3)コード生成,4)視覚的推論,の4つの異なるタスクで評価した.我々は,GPT-3.5とGPT-4のパフォーマンスと挙動はこれらの2つのリリース間で大きく異なることを発見した.例えば,GPT-4(2023年3月)は素数を特定するのが非常に上手かった(正解率97.6%)が,GPT-4(2023年6月)はこれらの同じ質問で非常に貧弱であった(正解率2.4%).興味深いことに,このタスクでGPT-3.5(2023年6月)はGPT-3.5(2023年3月)よりもはるかに優れていた.GPT-4は6月の方が3月よりもセンシティブな質問に回答することをより拒絶していた.また,コード生成では,GPT-4とGPT-3.5共に6月の方が3月よりもフォーマットの誤りが多くみられた.全体として,我々の発見は,「同じ」LLMサービスの挙動は比較的短期間で実質的に変化し得ることを示唆しており,LLMの品質の継続的なモニタリングの必要性を浮き彫りにした.