Skip to main content
QUICK REVIEW

[论文解读] Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation

Mateo Pechon-Elkins, Jon Chun|arXiv (Cornell University)|Feb 25, 2026
Explainable Artificial Intelligence (XAI)被引用 0
一句话总结

本文提出一个博弈论框架(GToM-Bench),利用 Quantal Response Equilibrium 来量化大模型在四个维度上的有限理性,具备收敛性保证并与人类数据进行校准。

ABSTRACT

Theory of Mind benchmarks for large language models typically produce aggregate scores without theoretical grounding, making it unclear whether high performance reflects strategic reasoning or surface-level heuristics. We introduce a game-theoretic evaluation framework grounded in quantal response equilibrium (QRE). We derive closed-form equilibria for four strategic games, each targeting a distinct cognitive capability. We estimate QRE rationality parameters lambda that place model behavior on a continuous scale calibrated against human data (lambda_human in [1.0, 2.5]), and establish finite-sample convergence bounds via martingale concentration. Validation across 1,855 games with seven frontier models (plus four expansion models) confirms predictions: bluff rates converge to within 4% of equilibrium, lambda estimates range from 0.05 to 1.10 across games and models with substantial cross-model variation, and capability profiles differ across cognitive axes. Robustness analyses reveal high sensitivity to prompt framing and version instability in QRE rankings, highlighting the need for standardized protocols.

研究动机与目标

  • 定义功能性 ToM,并将 ToM 相关能力分解为四个维度。
  • 在正式的均衡分析和基于 QRE 的有限理性框架中进行评估,并以经过校准的人类基准进行校准。
  • 为模型测量的能力提供收敛性保证和有限样本界。
  • 在 1,855 场游戏和七种前沿大模型(以及扩展模型)上进行经验验证,揭示多维度的 ToM 配置。

提出的方法

  • 推导针对不同认知轴设计的四个博弈的闭式均衡。
  • 用 Quantal Response Equilibrium 来建模有限理性,并通过最大似然估计和贝叶斯后验推断来估计理性参数 lambda。
  • 在 Bradley-Terry 模型下对 ELO 风格评分的收敛性结果进行证明,并给出有限样本的收敛界限。
  • 使用按轴的 ELO 评分来量化多维 ToM 能力,并分析跨轴相关性。
  • 将 lambda 与人类数据进行标定,并报告具有 95% 高斯熵区间的后验均值。
Figure 2: Round-by-round equilibrium convergence with 95% CI bands computed from 270 SC and 270 RPD games. (a) Strategic Claim: conditional bluff rate (given $v\leq 3$ ) converges toward $\beta^{*}=0.340$ (exponential fit $\rho=0.81$ , $R^{2}=0.87$ ). (b) Repeated PD: cooperation rate starts high an
Figure 2: Round-by-round equilibrium convergence with 95% CI bands computed from 270 SC and 270 RPD games. (a) Strategic Claim: conditional bluff rate (given $v\leq 3$ ) converges toward $\beta^{*}=0.340$ (exponential fit $\rho=0.81$ , $R^{2}=0.87$ ). (b) Repeated PD: cooperation rate starts high an

实验结果

研究问题

  • RQ1基于 QRE 的有限理性是否能够在多个 ToM 轴上量化对战略的复杂性?
  • RQ2大模型在多轮博弈设定中是否表现出向博弈论均衡的收敛?
  • RQ3前沿大模型在按轴的 ToM 能力之间的相关性或权衡关系如何?
  • RQ4QRE 推导的排名是否对提示框架和模型版本变更具有鲁棒性?
  • RQ5按轴的 ELO 评分是否在总体 ToM 得分之外提供区分效度?

主要发现

  • 在诱导欺骗与合作任务中,模型表现出向均衡的收敛性,欺骗率接近均衡的误差在 4% 的范围内,重复博弈中的70% 保持合作。
  • lambda 值在 0.05 到 1.10 的范围内,跨场景和模型存在变异,并有与人类基线的对比(human lambda 在 [1.0,2.5])。
  • 按轴的 ELO 评分揭示多维 ToM 配置;ESM 与 RSR 之间强负相关(r=-0.95),RSR 与 RSM 之间也存在强负相关(r=-0.82)。
  • 提示框架和版本不稳定性显著影响 QRE 排名,强调需要标准化的评估协议。
  • 在 1,855 场游戏中有五个理论预测得到经验性证实:收敛性、接近 beta* 的 4%、70% 的合作、指数收敛,以及充足的自举精度。
Figure 3: Per-model convergence trajectories in Strategic Claim showing heterogeneous learning rates. Contraction factor $\rho$ estimated via exponential fit on conditional bluff rate (given $v\leq 3$ ). Dashed lines show exponential fit overlays.
Figure 3: Per-model convergence trajectories in Strategic Claim showing heterogeneous learning rates. Contraction factor $\rho$ estimated via exponential fit on conditional bluff rate (given $v\leq 3$ ). Dashed lines show exponential fit overlays.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。