[论文解读] Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation
本文提出一个博弈论框架(GToM-Bench),利用 Quantal Response Equilibrium 来量化大模型在四个维度上的有限理性,具备收敛性保证并与人类数据进行校准。
Theory of Mind benchmarks for large language models typically produce aggregate scores without theoretical grounding, making it unclear whether high performance reflects strategic reasoning or surface-level heuristics. We introduce a game-theoretic evaluation framework grounded in quantal response equilibrium (QRE). We derive closed-form equilibria for four strategic games, each targeting a distinct cognitive capability. We estimate QRE rationality parameters lambda that place model behavior on a continuous scale calibrated against human data (lambda_human in [1.0, 2.5]), and establish finite-sample convergence bounds via martingale concentration. Validation across 1,855 games with seven frontier models (plus four expansion models) confirms predictions: bluff rates converge to within 4% of equilibrium, lambda estimates range from 0.05 to 1.10 across games and models with substantial cross-model variation, and capability profiles differ across cognitive axes. Robustness analyses reveal high sensitivity to prompt framing and version instability in QRE rankings, highlighting the need for standardized protocols.
研究动机与目标
- 定义功能性 ToM,并将 ToM 相关能力分解为四个维度。
- 在正式的均衡分析和基于 QRE 的有限理性框架中进行评估,并以经过校准的人类基准进行校准。
- 为模型测量的能力提供收敛性保证和有限样本界。
- 在 1,855 场游戏和七种前沿大模型(以及扩展模型)上进行经验验证,揭示多维度的 ToM 配置。
提出的方法
- 推导针对不同认知轴设计的四个博弈的闭式均衡。
- 用 Quantal Response Equilibrium 来建模有限理性,并通过最大似然估计和贝叶斯后验推断来估计理性参数 lambda。
- 在 Bradley-Terry 模型下对 ELO 风格评分的收敛性结果进行证明,并给出有限样本的收敛界限。
- 使用按轴的 ELO 评分来量化多维 ToM 能力,并分析跨轴相关性。
- 将 lambda 与人类数据进行标定,并报告具有 95% 高斯熵区间的后验均值。

实验结果
研究问题
- RQ1基于 QRE 的有限理性是否能够在多个 ToM 轴上量化对战略的复杂性?
- RQ2大模型在多轮博弈设定中是否表现出向博弈论均衡的收敛?
- RQ3前沿大模型在按轴的 ToM 能力之间的相关性或权衡关系如何?
- RQ4QRE 推导的排名是否对提示框架和模型版本变更具有鲁棒性?
- RQ5按轴的 ELO 评分是否在总体 ToM 得分之外提供区分效度?
主要发现
- 在诱导欺骗与合作任务中,模型表现出向均衡的收敛性,欺骗率接近均衡的误差在 4% 的范围内,重复博弈中的70% 保持合作。
- lambda 值在 0.05 到 1.10 的范围内,跨场景和模型存在变异,并有与人类基线的对比(human lambda 在 [1.0,2.5])。
- 按轴的 ELO 评分揭示多维 ToM 配置;ESM 与 RSR 之间强负相关(r=-0.95),RSR 与 RSM 之间也存在强负相关(r=-0.82)。
- 提示框架和版本不稳定性显著影响 QRE 排名,强调需要标准化的评估协议。
- 在 1,855 场游戏中有五个理论预测得到经验性证实:收敛性、接近 beta* 的 4%、70% 的合作、指数收敛,以及充足的自举精度。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。