Skip to main content
QUICK REVIEW

[论文解读] Extrapolating Beyond Suboptimal Demonstrations via Inverse Reinforcement Learning from Observations

Daniel S. Brown, Wonjoon Goo|arXiv (Cornell University)|Apr 12, 2019
Machine Learning and Data Classification被引用 120
一句话总结

T-REX 从有序的次优演示中学习奖励函数,以推断超出最佳演示的范围,使学习者在没有真实奖励或动作标签的情况下也能超越示范者。

ABSTRACT

A critical flaw of existing inverse reinforcement learning (IRL) methods is their inability to significantly outperform the demonstrator. This is because IRL typically seeks a reward function that makes the demonstrator appear near-optimal, rather than inferring the underlying intentions of the demonstrator that may have been poorly executed in practice. In this paper, we introduce a novel reward-learning-from-observation algorithm, Trajectory-ranked Reward EXtrapolation (T-REX), that extrapolates beyond a set of (approximately) ranked demonstrations in order to infer high-quality reward functions from a set of potentially poor demonstrations. When combined with deep reinforcement learning, T-REX outperforms state-of-the-art imitation learning and IRL methods on multiple Atari and MuJoCo benchmark tasks and achieves performance that is often more than twice the performance of the best demonstration. We also demonstrate that T-REX is robust to ranking noise and can accurately extrapolate intention by simply watching a learner noisily improve at a task over time.

研究动机与目标

  • 通过推断示范者潜在意图来激发从次优示范中学习,而不是照搬示范者的行为。
  • 开发一种基于观测的奖励学习方法,利用带排名的轨迹来推断出超越最佳示范的策略。
  • 通过优化推断出的奖励,使后续的强化学习代理实现超越示范者的性能。

提出的方法

  • 引入 Trajectory-ranked Reward EXtrapolation(T-REX),利用带排名的演示通过神经网络学习基于状态的奖励函数。
  • 通过最小化基于排名的损失来训练奖励网络,鼓励更高排名的轨迹具有更高的预测回报,使用 softmax 交叉熵(Bradley–Terry/Luce–Shephard 风格)目标。
  • 使用部分轨迹来增加训练样本和数据增强,从带排名的演示中形成大量成对偏好。
  • 将学习到的奖励与深度强化学习(PPO)结合,以获得超越示范的策略。
  • 使用五个神经网络的集合来正则化奖励学习并在 RL 优化前对输出进行归一化。

实验结果

研究问题

  • RQ1是否可以使用带排名的、潜在次优的演示来学习一个奖励函数,使其能够推断超越所观察到的最佳轨迹?
  • RQ2在高维任务中,基于排名的观测学习是否能够得到超过示范者性能的策略?
  • RQ3T-REX 对排名噪声以及基于时间顺序或人类提供的排名的学习有多鲁棒?
  • RQ4在没有示范者动作或真实奖励信号的情况下,T-REX 是否仍能超越模仿基线?

主要发现

  • 在 MuJoCo 任务中,与 PPO 结合时,T-REX 常常达到最佳示范性能的两倍以上。
  • 在 MuJoCo 和 Atari 的大多数任务与阶段上,T-REX 超越了最先进的模仿学习和逆强化学习方法(BCO、GAIL)。
  • T-REX 对中等排名噪声保持鲁棒,并且可以从时间序列排序(有噪声)或人为提供的嘈杂标签中学习。
  • 在 Atari 上,T-REX 在 8 款游戏中有 7 款超越了 BCO 和 GAIL,在若干标题上通常得分是最佳示范的两倍以上。
  • 奖励外推在若干游戏中与真实回报具有高度相关性,能够在观测轨迹之外实现有效的策略改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。