[论文解读] Rigorous Agent Evaluation: An Adversarial Approach to Uncover Catastrophic Failures
本文介绍一种用于 RL 代理的对抗性评估,以高效发现并估计灾难性失败,并通过从较弱代理学习的失败概率预测器提升效果,优于普通蒙特卡洛方法。
This paper addresses the problem of evaluating learning systems in safety critical domains such as autonomous driving, where failures can have catastrophic consequences. We focus on two problems: searching for scenarios when learned agents fail and assessing their probability of failure. The standard method for agent evaluation in reinforcement learning, Vanilla Monte Carlo, can miss failures entirely, leading to the deployment of unsafe agents. We demonstrate this is an issue for current agents, where even matching the compute used for training is sometimes insufficient for evaluation. To address this shortcoming, we draw upon the rare event probability estimation literature and propose an adversarial evaluation approach. Our approach focuses evaluation on adversarially chosen situations, while still providing unbiased estimates of failure probabilities. The key difficulty is in identifying these adversarial situations -- since failures are rare there is little signal to drive optimization. To solve this we propose a continuation approach that learns failure modes in related but less robust agents. Our approach also allows reuse of data already collected for training the agent. We demonstrate the efficacy of adversarial evaluation on two standard domains: humanoid control and simulated driving. Experimental results show that our methods can find catastrophic failures and estimate failures rates of agents multiple orders of magnitude faster than standard evaluation schemes, in minutes to hours rather than days.
研究动机与目标
- 在安全关键领域中对学习系统进行可靠评估的动机,失败的代价是灾难性的(如自动驾驶)。
- 展示 vanilla 随机测试在检测罕见失败和估计风险方面的局限性。
- 提出一种对抗性评估框架,使用从较弱代理学习得到的失败概率预测器 AVF 来引导失败搜索和风险估计。
- 证明对抗性评估能使发现失败和估计失败概率的速度比标准方法快几个数量级。
提出的方法
- 为代理给定初始条件 x 和随机性 Z 定义一个失败指标 c(x,Z)。
- 引入 AVF(失败概率预测器 f*(x)=P(c(x,Z)=1))及其从相关较弱代理学习近似 f ≈ f* 的延续学习方法。
- 利用 AVF 指导失败搜索,通过选择高 f x 的初始条件,并保持多样性以提高鲁棒性。
- 应用 AVF 指导的重要性抽样来进行风险估计,构建提出分布 Q_f 以最小化估计量方差。
- 提供算法 1:AVF 指导的风险估计器(AVF 估计量),它从 P_X 抽样,接受概率为 f^α(X_t),并以 f^-α(X_t) 对结果加权。
- 描述一个延续策略,在训练较早阶段从代理学习 AVF,以为评估提供更强的信号。
实验结果
研究问题
- RQ1对抗性评估是否比 RL 代理的 vanilla 蒙特卡洛更高效地发现灾难性失败?
- RQ2如何从较弱、相关的代理中学习出失败概率预测器 AVF,以引导失败搜索和风险估计?
- RQ3与标准方法相比,使用 AVF 指导评估时节省了多少数据和环境交互?
- RQ4AVF 基于的风险估计在通过重要性采样降低方差的同时是否保持无偏性?
- RQ5AVF 基于的方法是否有助于在有限集合中识别最可靠的代理?
主要发现
| Domain | AVF Cost | VMC Cost | PR Cost | Acceleration Factor |
|---|---|---|---|---|
| Driving | 3/5/11 | 200/1000/2700 | --- | 65/198/250 |
| Humanoid | 19/33/56 | 60K/110K/180K | 9K/10K/220K | 2100/3100/3800 |
- AVF 对手在对抗性输入的发现上所需的剧本显著少于随机测试(驾驶领域:少 198 倍;仿人领域:少 3100 倍)。
- AVF 指导的风险估计在达到给定准确度所需的实验次数方面大幅减少(驾驶:3 近似需要 750 次 vs 11,000 次试验;仿人:15,000 次 vs 5.1e5 次试验)。
- AVF 基于的方法在失败搜索和风险估计方面具有数量级的更快和更鲁棒的性能,使可靠性评估在几分钟到几小时内就可实现,而非数日。
- 优先级回放(PR)对手提高了效率,但可能错过某些失败,在某些情况下需要回退到 VMC。
- 使用 AVF 进行模型选择可以比 VMC 更好地按可靠性排名策略,在训练初期就识别出更鲁棒的代理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。