Skip to main content
QUICK REVIEW

[论文解读] Deep reinforcement learning from human preferences

Paul F. Christiano, Jan Leike|arXiv (Cornell University)|Jun 12, 2017
Reinforcement Learning in Robotics参考文献 31被引用 508
一句话总结

本文通过从人类轨迹片段偏好中训练奖励模型,并用强化学习进行优化来学习策略,从而在不获取真实奖励的情况下完成复杂任务。它在最少的人类反馈下演示了 Atari 和 MuJoCo 任务。

ABSTRACT

For sophisticated reinforcement learning (RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert) human preferences between pairs of trajectory segments. We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on less than one percent of our agent's interactions with the environment. This reduces the cost of human oversight far enough that it can be practically applied to state-of-the-art RL systems. To demonstrate the flexibility of our approach, we show that we can successfully train complex novel behaviors with about an hour of human time. These behaviors and environments are considerably more complex than any that have been previously learned from human feedback.

研究动机与目标

  • 在奖励难以被明确规定的领域激发强化学习。
  • 开发一种可扩展的方法,从人类偏好而非绝对奖励中学习。
  • 证明少量非专家人类反馈就能在大规模任务中引导深度强化学习。
  • 演示在 Atari 和 MuJoCo 中难以手工设计奖励的学习行为。

提出的方法

  • 维护一个策略 pi 和一个奖励预测器 hat{r},两者都由深度网络参数化。
  • 收集轨迹片段并向人类查询以比较片段对。
  • 使用 Bradley–Terry 型模型对人类偏好最大化一个交叉熵损失来拟合 hat{r}。
  • 使用预测奖励 hat{r} 作为奖励信号进行强化学习训练策略。
  • 使用一组奖励预测器的集合并对它们的输出取平均以稳定学习。
  • 通过采样片段对来选择查询,并选择集合预测不一致性较高的对。

实验结果

研究问题

  • RQ1人类对简短轨迹片段的偏好是否能提供足够信号来在没有原生奖励函数的情况下训练深度强化学习代理?
  • RQ2为在复杂任务中实现接近强化学习的性能,需要多少以及何种类型的人类反馈(真实 vs. 合成/oracle)?
  • RQ3在线人类反馈是否能防止奖励错误设定和代理的利用行为?
  • RQ4该方法能否扩展到复杂领域(Atari、MuJoCo),并产生在奖励中不易手工设计的新行为?

主要发现

  • 该方法在 Atari 和 MuJoCo 中以远少于完全演示或奖励工程所需的人力时间解决复杂的强化学习任务。
  • 通过数百至数千次人类对比,该方法在若干 MuJoCo 任务和部分 Atari 游戏上几乎达到强化学习的性能。
  • 实际的人类反馈通常与合成反馈表现相似或略差,视任务和标注一致性而定。
  • 该方法在不到一小时的人类时间内即可学习新的行为(例如后空翻、在交通中驾驶)。
  • 离线奖励预测器训练而不进行在线更新可能失败,表明将人类反馈与正在进行的 RL 结合的重要性。
  • 使用 hat{r} 的集成以及比较轨迹片段提升学习稳定性和与人类判断的一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。