[論文レビュー] Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation
この論文は、四つの軸を横断する有界合理性を定量化するためのゲーム理論的枠組み(GToM-Bench)をQuantal Response Equilibriumを用いて提案し、収束保証と人間データに対する較正を提供する。
Theory of Mind benchmarks for large language models typically produce aggregate scores without theoretical grounding, making it unclear whether high performance reflects strategic reasoning or surface-level heuristics. We introduce a game-theoretic evaluation framework grounded in quantal response equilibrium (QRE). We derive closed-form equilibria for four strategic games, each targeting a distinct cognitive capability. We estimate QRE rationality parameters lambda that place model behavior on a continuous scale calibrated against human data (lambda_human in [1.0, 2.5]), and establish finite-sample convergence bounds via martingale concentration. Validation across 1,855 games with seven frontier models (plus four expansion models) confirms predictions: bluff rates converge to within 4% of equilibrium, lambda estimates range from 0.05 to 1.10 across games and models with substantial cross-model variation, and capability profiles differ across cognitive axes. Robustness analyses reveal high sensitivity to prompt framing and version instability in QRE rankings, highlighting the need for standardized protocols.
研究の動機と目的
- Functional ToM(機能的心の理論)を定義し、ToMに関連する能力を四つの軸に分解する。
- 評価を形式的な均衡分析と有限サンプルでの有界合理性に基づいて、較正済みの人間ベンチマークとともに grounding する。
- モデルが測定する能力について収束保証と有限サンプル境界を提供する。
- 1,855ゲームと七つのフロンティアLLM(拡張モデルを含む)を横断して経験的検証を行い、多次元的なToMプロファイルを明らかにする。
提案手法
- 四つの戦略的に設計されたゲームの厳密解を導出し、異なる認知軸を対象とする。
- Quantal Response Equilibriumで有界合理性をモデル化し、最尤推定とベイズ後方推定を用いて合理性パラメータlambdaを推定する。
- Bradley-Terryモデルの下でのELO風評価の収束結果を有限サンプルの集中境界とともに証明する。
- 軸別のELO評価を用いて多次元のToM能力を定量化し、軸間相関を分析する。
- 人間データに対してlambdaを較正し、事後平均と95% HDIを報告する。

実験結果
リサーチクエスチョン
- RQ1QREベースの有界合理性は、複数のToM軸にわたる戦略的巧妙さをLLMで定量化できるか。
- RQ2マルチラウンド設定でLLMはゲーム理論的均衡へ収束するか。
- RQ3最先端のLLMにおける軸別ToM能力は相関・トレードオフを示すか。
- RQ4QRE由来のランキングはプロンプトの framingやモデルバージョンの変更に頑健か。
- RQ5ELOベースの軸別評価はAggregate ToMスコアを超える識別妥当性を提供するか。
主な発見
- ブラフ・協力タスクで模型は均衡へ収束し、ブラフ率は均衡の4%以内、反復PDで70%の協力を維持する。
- lambda値はゲーム・モデル間で0.05から1.10の範囲に分布し、モデル間のばらつきと人間ベースライン(lambda_humanは[1.0,2.5])を持つ。
- 軸別ELO評価は多次元のToMプロファイルを示し、ESMとRSRの間に強い負の相関(r=-0.95)、RSRとRSMの間にも負の相関(r=-0.82)がある。
- プロンプト framingとバージョンの不安定性はQREランキングに有意な影響を与えるため、標準化された評価プロトコルの整備が必要である。
- 七つの理論予測のうち五つが1,855ゲームを横断して経験的に確認されている:収束、beta*への4%近接、70%の協力、指数的収束、十分なブートストラップ精度。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。