QUICK REVIEW

[论文解读] Safe Imitation Learning via Fast Bayesian Reward Inference from Preferences

Daniel S. Brown, Russell Coleman|arXiv (Cornell University)|Feb 21, 2020

Reinforcement Learning in Robotics参考文献 77被引用 37

一句话总结

本文提出了贝叶斯奖励外推（Bayesian REX），利用示例轨迹偏好来高效推断奖励函数并为仿制学习在高维任务（如 Atari）上提供高置信度的策略评估。它实现了快速后验采样，在无需真实奖励的情况下也能达到竞争性的模仿表现。

ABSTRACT

Bayesian reward learning from demonstrations enables rigorous safety and uncertainty analysis when performing imitation learning. However, Bayesian reward learning methods are typically computationally intractable for complex control problems. We propose Bayesian Reward Extrapolation (Bayesian REX), a highly efficient Bayesian reward learning algorithm that scales to high-dimensional imitation learning problems by pre-training a low-dimensional feature encoding via self-supervised tasks and then leveraging preferences over demonstrations to perform fast Bayesian inference. Bayesian REX can learn to play Atari games from demonstrations, without access to the game score and can generate 100,000 samples from the posterior over reward functions in only 5 minutes on a personal laptop. Bayesian REX also results in imitation learning performance that is competitive with or better than state-of-the-art methods that only learn point estimates of the reward function. Finally, Bayesian REX enables efficient high-confidence policy evaluation without having access to samples of the reward function. These high-confidence performance bounds can be used to rank the performance and risk of a variety of evaluation policies and provide a way to detect reward hacking behaviors.

研究动机与目标

通过实现对从示范中学习到的奖励的不确定性量化来推动安全的模仿学习。
开发可扩展的贝叶斯奖励推断方法，利用轨迹偏好避免内层MDP求解。
在没有奖励样本或MDP模型的情况下，实现模仿学习中的高置信度策略评估。
证明在高维视觉领域（Atari）中的适用性，并展示相对于点估计方法的竞争性表现。

提出的方法

用成对排序似然（Bradley–Terry模型）来表述从示范偏好得到的奖励推断。
将奖励表示为 R(s)=w^T φ(s)，其中 φ(s) 通过自监督的低维状态嵌入预训练学习。
用自监督任务（逆动力学、正向动力学、时间距离、变分自编码器）和 T-REX 排序损失对 φ(s) 进行预训练；冻结 φ 仅学习最后一层权重 w。
使用 MCMC 从后验 P(w|D,𝒫) 进行采样，其中 P(D,𝒫|R_θ) 由成对排序似然定义，避免对完整MDP的求解。
缓存轨迹嵌入 Φ_τ，以高效地计算 P(D,𝒫|R_θ) 为 w^TΦ_τ，从而实现可扩展的后验采样（如在笔记本电脑上约5分钟生成10万次采样）。
利用线性奖励结构通过单次矩阵向量乘积 WΦ_{cpi_{eval}} 在后验上计算策略值，获得对策略性能的高置信区间（VaR）。

实验结果

研究问题

RQ1示范偏好是否能够在高维视觉控制中实现快速的贝叶斯奖励推断？
RQ2基于偏好的贝叶斯奖励推断在没有MDP求解器或奖励样本的情况下，是否能提供有用的高置信度策略评估界？
RQ3在Atari尺度的任务上，贝叶斯 REX 与现有的IRL方法和基于排序的方法相比有何差异？
RQ4自监督预训练和特征表示在可扩展的贝叶斯模仿学习中起到怎样的作用？

主要发现

贝叶斯 REX 能在笔记本电脑上大约5分钟内为 Atari 任务生成约10万次后验采样。
使用贝叶斯 REX 的模仿学习达到或超过现有仅输出奖励点估计的最先进方法的表现。
贝叶斯 REX 能实现高效的高置信策略评估，在没有奖励样本的情况下对奖励不确定性下的策略价值给出下界。
在 Atari 游戏上，带偏好的贝叶斯 REX 在多款游戏上平均表现优于示范者。
该方法有助于通过不确定性为评估策略提供性能界和风险排序来检测奖励劫持问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。