QUICK REVIEW

[论文解读] Emergence of Locomotion Behaviours in Rich Environments

Nicolas Heess, Dhruva Tb|arXiv (Cornell University)|Jul 7, 2017

Reinforcement Learning in Robotics参考文献 15被引用 668

一句话总结

该论文表明，丰富多样的训练环境使通过简单奖励即可产生强健的步态技能，使用跨多种身体与地形的可扩展分布式PPO算法。它证明了类似课程的地形和多样化地形能提升学习速度和鲁棒性，无需显式的行为特定奖励。

ABSTRACT

The reinforcement learning paradigm allows, in principle, for complex behaviours to be learned directly from simple reward signals. In practice, however, it is common to carefully hand-design the reward function to encourage a particular solution, or to derive it from demonstration data. In this paper explore how a rich environment can help to promote the learning of complex behavior. Specifically, we train agents in diverse environmental contexts, and find that this encourages the emergence of robust behaviours that perform well across a suite of tasks. We demonstrate this principle for locomotion -- behaviours that are known for their sensitivity to the choice of reward. We train several simulated bodies on a diverse set of challenging terrains and obstacles, using a simple reward function based on forward progress. Using a novel scalable variant of policy gradient reinforcement learning, our agents learn to run, jump, crouch and turn as required by the environment without explicit reward-based guidance. A visual depiction of highlights of the learned behavior can be viewed following https://youtu.be/hx_bgoTF7bs .

研究动机与目标

在多样环境中训练时，简单奖励信号是否能够产生复杂的步态行为？
评估地形多样性和课程式难度进展对学习速度和鲁棒性的影响。
开发并验证适用于丰富环境中高维连续控制的可扩展强化学习算法。

提出的方法

为可扩展的高维连续控制引入 Distributed Proximal Policy Optimization (DPPO)。
采用将本体感知输入和外部感知输入分离的两子网络策略架构以加速学习。
在多个身体（Planar Walker, Quadruped, Humanoid）上使用简单的前向进展奖励并加入轻量化的扭矩惩罚。
通过程序化生成多样地形和障碍物来创建一系列任务难度和课程。
使用截断的时序反向传播与共享参数服务器来实现高效的分布式学习。
在基准任务上将 DPPO 与 TRPO 和 A3C 基线进行比较，并验证其可扩展性及与循环策略的兼容性。

实验结果

研究问题

RQ1简单前向进展奖励是否在多样环境的结合下能够产生涌现的步态技能（跳跃、蹲下、转向）而不需要专门的奖励？
RQ2课程式地形进展和地形多样性如何影响学习速度和策略鲁棒性？
RQ3分布式 PPO 框架是否能够有效扩展到复杂的身体与丰富地形，同时支持循环策略？
RQ4哪些评价证据显示对未观察到的地形变化和扰动具有鲁棒性？

主要发现

DPPO 在 Planar Walker、Humanoid 和 Memory Reacher 基准任务上实现了与 TRPO 相当的性能，并且能随着工作者数量的增加而很好地扩展。
在多样且具有课程式地形的环境中训练的代理在没有任务特定奖励塑形的情况下发展出鲁棒的步态技能（跳跃、蹲下、转向）。
课程式的逐步增难相较于固定难度地形能加速学习。
在充满障碍的地形上训练提高了策略对未观察到的地形变化与扰动的鲁棒性。
humanoid 实验表明，在不同地形下呈现出定性上多样且表现良好的步态，有些种子在更高任务复杂度下仍实现鲁棒成功。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。