QUICK REVIEW

[论文解读] Re-evaluating Evaluation

David Balduzzi, Karl Tuyls|arXiv (Cornell University)|Jun 7, 2018

Adversarial Robustness in Machine Learning参考文献 57被引用 24

一句话总结

本文提出了纳什平均（Nash averaging），一种新颖的评估方法，通过将评估数据视为具有最大熵纳什均衡的元博弈，自动适应冗余任务和智能体。该方法通过处理非传递性交互并消除挑选性偏差，克服了传统指标（如Elo评分）的关键局限，证明在新评估框架下，人类在Atari上的表现与最佳智能体相当。

ABSTRACT

Progress in machine learning is measured by careful evaluation on problems of outstanding common interest. However, the proliferation of benchmark suites and environments, adversarial attacks, and other complications has diluted the basic evaluation model by overwhelming researchers with choices. Deliberate or accidental cherry picking is increasingly likely, and designing well-balanced evaluation suites requires increasing effort. In this paper we take a step back and propose Nash averaging. The approach builds on a detailed analysis of the algebraic structure of evaluation in two basic scenarios: agent-vs-agent and agent-vs-task. The key strength of Nash averaging is that it automatically adapts to redundancies in evaluation data, so that results are not biased by the incorporation of easy tasks or weak agents. Nash averaging thus encourages maximally inclusive evaluation -- since there is no harm (computational cost aside) from including all available tasks and agents.

研究动机与目标

为应对因基准测试泛滥和对抗性攻击导致的机器学习评估日益复杂和产生偏差的问题。
开发一种原则性、对称的评估框架，平等对待智能体和任务，避免依赖Elo评分等传递性假设。
创建一种对冗余数据不变的评估方法，实现在无计算惩罚的前提下最大限度地包容性测试。
回答关于哪些任务和智能体在评估中真正重要，以及如何评估评估本身的根本性问题。

提出的方法

纳什平均将评估数据建模为元博弈，其中智能体和任务作为参与者，结果构成一个反对称矩阵。
计算该元博弈的最大熵纳什均衡，自然地降低冗余或无信息量的任务和智能体的权重。
利用反对称矩阵的Schur分解揭示潜在技能和任务维度，实现性能的多维分析。
引入多维Elo（mElo）评分以处理标准Elo无法建模的循环交互（如石头剪刀布动态）。
该方法利用组合Hodge理论，并将反对称矩阵分解为可传递（梯度）和循环（旋度）分量，以分离有意义的性能与噪声。
在纳什分布下计算任务的预期难度，提供一种独立于智能体表现的、原则性的任务难度评估方法。

实验结果

研究问题

RQ1任务是否真正测试了其本应衡量的能力，还是被隐藏偏差所干扰？
RQ2在何种情况下任务或智能体是冗余的，如何检测并自动降低其在评估中的权重？
RQ3在基准测试套件中，哪些任务和智能体最为关键，如何在不依赖主观选择的情况下识别它们？
RQ4如何评估评估过程本身，以确保在多样化基准测试中具备公平性和鲁棒性？

主要发现

在纳什平均下，人类在Atari基准测试中的表现被发现与最佳强化学习智能体相当，挑战了超人类表现的宣称。
该方法自动降低冗余任务和智能体的权重，确保评估结果不会因简单或重复的挑战而被夸大。
多维Elo（mElo）评分成功建模了非传递性交互，如石头剪刀布中的动态，而标准Elo无法处理此类情况。
评估矩阵的Schur分解揭示了潜在的技能和任务维度，提供了超越标量得分的智能体能力的可解释性和洞察力。
元博弈的最大熵纳什均衡为评估智能体和任务提供了稳定且原则性的基线，即使在存在循环动态的情况下也成立。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。