[论文解读] Reinforcement and Imitation Learning for Diverse Visuomotor Skills
一种无模型深度强化学习方法,结合演示与强化学习,从像素中学习端到端的视觉-运动策略,用于多样化的机器人操控任务,具有可观的仿真到现实的转移潜力。
We propose a model-free deep reinforcement learning method that leverages a small amount of demonstration data to assist a reinforcement learning agent. We apply this approach to robotic manipulation tasks and train end-to-end visuomotor policies that map directly from RGB camera inputs to joint velocities. We demonstrate that our approach can solve a wide variety of visuomotor tasks, for which engineering a scripted controller would be laborious. In experiments, our reinforcement and imitation agent achieves significantly better performances than agents trained with reinforcement learning or imitation learning alone. We also illustrate that these policies, trained with large visual and dynamics variations, can achieve preliminary successes in zero-shot sim2real transfer. A brief visual description of this work can be viewed in https://youtu.be/EDl8SQUNjj0
研究动机与目标
- 通过利用演示来降低连续视觉-运动控制的探索难度。
- 在一个统一的训练框架中整合模仿学习与强化学习。
- 利用特权仿真信息来稳定和加速学习。
- 多样化训练条件以提升泛化能力和仿真到现实的转移。
- 展示通过域随机化实现对真实机器人零-shot转移的潜力。
提出的方法
- 使用一个混合奖励,将来自 Generative Adversarial Imitation Learning (GAIL) 的模仿奖励与任务奖励结合。
- 训练一个端到端的视觉-运动策略,将 RGB 观测和本体感知特征映射到 9-DoF 关节速度指令。
- 通过以下方式利用特权仿真状态:(i) 以演示状态为起点的课程学习,(ii) 从物理状态中分离值学习,(iii) 以对象为中心的 GAIL 判别器并带掩码,(iv) 辅助状态预测任务。
- 使用 CNN 处理像素、MLP 处理本体感知、以及以 LSTM 作为时序整合核心来表示策略。
- 在 MuJoCo 中进行训练,使用多样化、程序生成的对象和随机化动态;通过仿真到现实的域随机化转移到真实机器人。
- 允许用不同机体收集演示,因为判别器使用状态轨迹而非演示者动作。
实验结果
研究问题
- RQ1一个混合强化学习与模仿学习框架,是否能够解决仅RL或仅IL均失败的从像素输入的长时程视觉-运动任务?
- RQ2利用特权仿真数据和课程策略是否能稳定学习并加速收敛?
- RQ3以对象为中心的判别、分离状态值学习和辅助任务对策略性能有何影响?
- RQ4训练在仿真中的策略在不进行微调的情况下转移到真实硬件的程度(零-shot sim2real)?
主要发现
- 完整的混合模型解决了全部六个操控任务,优于纯 RL 或纯 GAIL 基线。
- 以演示驱动的课程起始状态相比从随机起始更显著地加速学习。
- 从低维物理状态学习价值函数稳定了训练。
- 以对象为中心的判别器通过聚焦于与任务相关的特征来提高 GAIL 的信号。
- 对真实 Kinova Jaco 手臂的零-shot 转移在固定配置下举起任务成功率为 64%,在叠放任务中为 35%,在测试轨迹中,达到也总是成功。
- 带域随机化的混合 RL/IL 对大范围视觉和动态变化具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。