【AI】人間を模倣したメタ認知プロンプトは大規模言語モデルの精度を向上させる
■しかし,これらのアプローチは算術等特定の領域に特化しており,文章理解力そのものの向上には限界がある.自然言語理解(NLU)はAIの言語理解能力を指し,質問応答,テキスト分類,言語推論など幅広いNLPタスクで重要である.LLMは注目されているが,そのNLU能力の研究は相対的に限定的である.人間の認知プロセスは言語能力に深く関係し,NLUにも影響を与える.今回,新たに人間の内省過程からインスピレーションを得た「メタ認知プロンプティング」を提案し,LLMの理解能力の強化を図った論文を紹介するとともにその下に詳細を解説する.
大規模言語モデルにおけるメタ認知プロンプトは理解を改善させる1.メタ認知プロンプティングの提案
Wang Y, Zhao Y. Metacognitive Prompting Improves Understanding in Large Language Models. arXiv 2023 Aug.10[arXiv:2308.05342]
http://export.arxiv.org/abs/2308.05342v1
Abstract
大規模言語モデル(Large Language Models: LLM)では,効果的なプロンプトの設計に大きく影響されながら,タスク固有の性能が一貫して向上してきた.近年のプロンプトに関する研究により,LLMの推論能力は向上しているが,理解能力をさらに向上させるにはギャップが残っている.本研究では,人間の内省的推論プロセスに着想を得た戦略であるメタ認知プロンプト(MP)を導入する.MPを用いることで,LLMは構造化された一連の自己認識的評価を受け,その膨大な固有知識と新たな洞察の両方を活用する.我々の実験では,5つの一般的なLLMを使用した: Llama2,Vicuna,PaLM,GPT-3.5,GPT-4であり,いずれもGLUEおよびSuperGLUEベンチマークの様々な自然言語理解(NLU)タスクに対応している.その結果,GPT-4はほとんどのタスクで一貫して優れているが,PaLMはMPを装備した場合,その性能レベルに近づくことが示された.さらに,モデルやデータセットを問わず,MPは,標準的なプロンプティングや思考連鎖プロンプティングを含む既存のプロンプティング手法を常に凌駕している.本研究は,LLMの理解能力を増幅する可能性を強調し,NLUタスクにおいて人間の内省的推論を反映することの利点を強調する.
■この研究で提案された手法であるメタ認知プロンプティング(MP)については次のように説明されている.MPは,人間のメタ認知プロセスから着想を得た新しいプロンプティング戦略である.MPはLLMに5つの段階のプロセスを経ることを要求することで,単なるタスクの実行を超えて,応答の根拠を深く理解することをLLMに要求する.
1段階目:入力テキストの理解で,人間の理解段階に相当する.
2段階目:予備的判断の形成で、人間の判断形成に相当する.
3段階目:予備判断の批判的評価で,人間の内省に相当する.
4段階目:最終判断とその説明で,人間の意思決定に相当する.
5段階目:プロセス全体への自信度評価で,人間の評価に相当する.
1段階目(入力テキストの理解)のプロンプト例■MPの2段階目では,LLMに1段階目で理解した内容に基づいて予備的な判断を形成することを求めている.プロンプト例を以下に示す.これらはLLMの理解力と判断力の基礎を形成する初期の段階として,ある一定の見解を示すことを要求しており,人間の認知プロセスにおける「判断の形成」を模倣したもので,LLMの論理的思考形成の足がかりとなる重要な段階である.
・この文章の内容と意味を理解し,要点をまとめてください.
・この文章は何について述べているか,簡潔に説明してください.
・この文章の主題と議論の流れを把握し、要約してください.
・この文章のキーワードと主張を特定して、内容を確認してください.
・この文章の背景と文脈を考慮し、主要なアイデアを理解してください.
2段階目(予備的判断の形成)のプロンプト例■MPの3段階目では,LLMに2段階目で形成した予備的な判断について,批判的に評価・再評価することを求めている.プロンプト例を以下に示す.このように,一旦形成した判断を批判的に分析・再評価することで,人間のメタ認知過程の「内省」をLLMに模倣しており,LLMの判断力と論理的思考力を高める上で重要な段階といえる.
・1段階目での理解に基づき,この文章の内容に対するあなたの予備的な判断を述べてください.
・この文章の意味を考慮し,最初の印象としてどのように判断しますか?
・現時点での理解によると,この文章の主張に対してあなたは賛成ですか?反対ですか?
・この文章の主題と論点を踏まえ,予備的にどの見解を支持しますか?
・段階的に考えを発展させるため,まずはこの文章に対する自分の第一印象的な判断を述べてください.
3段階目(批判的評価)のプロンプト例■MPの4段階目では,LLMに3段階目の批判的評価を経た上で,最終的な判断を下し,その理由付けをすることを求めている.プロンプト例を以下に示す.このように,LLMに判断の理由付けと説明を求めることで,人間の意思決定プロセスを模倣しており,LLMの論理展開と説明能力を高める上で重要な段階といえる.
・2段階目のあなたの予備的な判断は正しいと思いますか?不確定な場合は再考してください.
・もう一度予備判断を評価し,それが妥当かどうか検討してください.
・予備判断に反する可能性のある要素がこの文章にはないか注意深く確認してください.
・予備判断を支持する証拠と,反証の証拠のどちらが強いか評価してください.
・予備判断に確信が持てない場合,どの点をもう一度考え直すべきか特定してください.
4段階目(判断の確認)のプロンプト例■MPの5段階目では,LLMに1-4段階目のプロセス全体を通しての最終判断に対する信頼性を評価させることを求めている.プロンプト例を以下に示す.このように,LLMの出力した最終判断に対する不確実性を定量的に評価させることで,人間のメタ認知的な「自己評価」を模倣しており,LLMの判断の精度と限界の自覚を高める上で重要な段階といえる.
・3段階目の評価に基づき,あなたの最終的な判断を述べてください.
・批判的評価後のあなたの結論を簡潔に説明してください.
・あなたの最終判断に至った論理的な理由をstep-by-stepで説明してください.
・なぜその最終判断が最善の判断だと思うのか,根拠を示してください.
・可能性のある他の選択肢を検討し,最終判断が妥当である理由を述べてください.
5段階目(信頼性評価)のプロンプト例2.メタ認知プロンプティングの評価
・あなたの最終判断に対する確信性を0-100%で述べてください.
・最終判断に至るまでの推論過程の正確さを評価してください.
・判断の信頼性が低いと思われる点があれば具体的に述べてください.
・最終判断の妥当性を支持する証拠は十分だと思いますか?評価してください.
・もしこのタスクを再度行った場合,同様の判断に至る確率はどの程度だと思いますか?
■この論文のMPについて有効性を検証するため,次の方法を行っている.GLUEとSuperGLUEのベンチマークから,SST-2,STS-B,QQP,QNLIなど多様な一般的言語理解タスクのデータセットを使用した.評価するために用いたLLMは Llama2,Vicuna,PaLM,GPT-3.5,GPT-4である.比較するプロンプトは,標準プロンプト,Chain-of-Thoughtプロンプト,提案手法のMPの3種類とした.これらの各モデルとデータセットに対して,ゼロショットと5ショットの両方の設定で実験を実施し,各タスクの標準的な評価指標(精度,F1,相関係数など)でモデルのパフォーマンスを比較評価した.
■結果は,MPはほぼ全てのモデルとタスクで,標準プロンプトやChain-of-Thoughtプロンプトを上回る精度を達成した(下画像参照:左軸に注意.棒グラフの表示方法としてはよくない).特に,文章理解力を必要とするSST-2,STS-B,QQPなどのタスクで顕著なパフォーマンス向上が見られた.GPT-3.5では,SST-2の精度が標準プロンプトの場合は71%だったのに対し,MPでは82%に大きく改善した.MPの効果は,ゼロショットと少数ショットの両方で確認され,データ量に依存しないことが示唆された.
ユーザーによるMPの指示
2つの文章で,文章1:「神経細胞を興奮させる」,文2:「祭りの幕開けを飾った花火はその場にいた全員を興奮させた.」のいずれも「excite(興奮させる)」という言葉を含んでいます.ターゲットワードが両文で同じ意味で使われているかどうかを判断しなさい.
AIのMP2段階目回答
ターゲットワードは同じ意味である:誤り(適切)
AIの最終回答(MPの4・5段階目)
ターゲットワードは同じ意味である:正しい.再評価の結果,「モデルは,両方の文脈が生物学的または感情的な反応を引き起こすことを示唆し,類似性という結論に至るという仮説を立てた」.この修正分析に対する信頼度は90%である.(誤答)
ユーザーによるMPの指示■また,MPによる回答は,標準プロンプトの場合よりもLLMの確信度が低めになる傾向があり,自己評価能力を示唆した.
文章1:「The very easiness of the deed held her back.」,文章2:「There was an easiness between them.」の2つの文には,どちらも目的語 "easiness"が含まれている.この2つの文において,目的語が同じ意味で使われているかどうかを判断しなさい.
AIのMP2段階目回答
ターゲットワードは同じ意味である:誤り(適切)
AIの最終回答(MPの4・5段階目)
ターゲットワードは同じ意味である:正しい.再評価の結果,両文章の「easiness」は感情状態に関係し,前者では単純さによるためらいを,後者では感情的な調和を意味している.この修正された分析に対する信頼度は85%である.(誤答)
3.メタ認知プロンプティングの問題点
■本研究のLimitationとして著者らは以下のことを挙げている.
・MPは長めのプロンプトを要求するため,効率性に課題がある.■これらに加えて,私からも問題点を挙げるとすると,まず,確信性の評価についてである.これは全くあてにならないケースもある.例えば,GPT-4が算術能力がかなり低く,明らかに誤った回答であるにもかかわらず,確信性を100%と回答してくることがある.
・段階的プロセスに従うことで,過剰思考や過剰修正が生じる可能性がある.
・MPの各段階の設計にはさらなる最適化の余地がある.
・人間のメタ認知過程の完全な再現には至っていない.
・MPの有効性は一般的言語理解タスクで確認できたが,他のタスクへの適用可能性は不明確.
・長文や論理的に複雑な文章への適用には改良が必要.
・MPによって本当に「理解力」が向上したかを直接測定できていない.
■また,ChatGPTにおいては確率的な問題がある.「理解力」とはいうものの,ChatGPTは真に人間のように意味を理解するわけではなく,与えられた入力に対して最も確率的に適切なテキストを生成することを学習しているのである.したがって,特定の質問の意図やニュアンスを完全に理解することはできないし,特定の「答え」を持っているわけでもない.それはある程度のランダム性を持っており,それにより多様な回答を生成することができる.すなわち,事実関係ではなく確率で単語を出現させて回答を生成している.このため同一の質問をスレッドを変えてChatGPTに行うと回答が変わるという一貫性欠如の現象が起こることが知られており,適切な回答にたどりつくには同様の質問をスレッドを変えて繰り返し,頻度が高い回答を選択するという方法で精度があがることが知られているが,これは効率が悪い.
■また,標準プロンプト,Chain-of-Thoughtと比較したMPの評価における精度向上については有意差検定は行う研究デザインにはなっておらず,実際の数値をみるにどこまで意義のある差なのかという疑問は残る.