Skip to main content
QUICK REVIEW

[论文解读] Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning

Sandy H. Huang, Martina Zambelli|arXiv (Cornell University)|Mar 20, 2019
Reinforcement Learning in Robotics参考文献 36被引用 45
一句话总结

本文将冲击惩罚与基于惩罚的内在好奇奖励结合起来,训练能够温和操作物体的深度强化学习策略,并在模拟中的 tendon-powered Shadow Hand 上以及真实硬件上进行了演示。

ABSTRACT

Robots must know how to be gentle when they need to interact with fragile objects, or when the robot itself is prone to wear and tear. We propose an approach that enables deep reinforcement learning to train policies that are gentle, both during exploration and task execution. In a reward-based learning environment, a natural approach involves augmenting the (task) reward with a penalty for non-gentleness, which can be defined as excessive impact force. However, augmenting with only this penalty impairs learning: policies get stuck in a local optimum which avoids all contact with the environment. Prior research has shown that combining auxiliary tasks or intrinsic rewards can be beneficial for stabilizing and accelerating learning in sparse-reward domains, and indeed we find that introducing a surprise-based intrinsic reward does avoid the no-contact failure case. However, we show that a simple dynamics-based surprise is not as effective as penalty-based surprise. Penalty-based surprise, based on predicting forceful contacts, has a further benefit: it encourages exploration which is contact-rich yet gentle. We demonstrate the effectiveness of the approach using a complex, tendon-powered robot hand with tactile sensors. Videos are available at http://sites.google.com/view/gentlemanipulation.

研究动机与目标

  • 激励安全、低冲击的操作,以减少现实世界机器人中的磨损和损坏。
  • 使操作任务中的探索与学习在不过度接触或施力的情况下进行。
  • 开发一个训练框架,在探索与执行阶段都在任务性能与温和性之间取得平衡。
  • 探索不同内在奖励(基于动力学的与基于惩罚的)在引导温和操作方面的有效性。

提出的方法

  • 将温和性定义为使用测量到的力的增加量 m_t 来最小化交互冲击。
  • 用通过可接受性函数 a_λ(m) 计算的冲击惩罚 r_t^f 来增强任务奖励,以抑制高冲击。
  • 引入基于惩罚的内在奖励 r_t^{s_p},通过预测模型以及与惩罚的凸组合,鼓励对低惩罚冲击的好奇心。
  • 比较基于动力学的突现 r_t^s 与基于惩罚的突现 r_t^{s_p},并为任务奖励、动力学突现、惩罚突现和冲击惩罚设置独立的评价器。
  • 使用 D4PG(Distributed Distributional Deterministic Policy Gradients),包含一个 actor 和多个 critic;将动力学模型与惩罚预测器作为集成预测器进行训练;在 MuJoCo 仿真与具触觉传感器的 Shadow Hand 上应用。
  • 提供训练计划细节,包括目标动力学模型的更新以及内在奖励的激活时机(仿真中在 20k 步后,真实机器人上在 8k 步后)。

实验结果

研究问题

  • RQ1将冲击惩罚与基于惩罚的内在奖励结合是否能够学习到温和的操作策略?
  • RQ2基于惩罚的突现是否比基于动力学的突现在促进温和、接触丰富的探索方面更有效?
  • RQ3这些方法能否迁移并在具触觉传感的真实机器人操作中发挥作用?
  • RQ4不同的奖励增强在简单任务和脆弱对象任务中如何影响学习速度和最终策略的温和性?

主要发现

  • 在仿真和真实机器人中,使用任务奖励加冲击惩罚和基于惩罚的突现训练的策略,学习以低冲击温和完成任务。
  • 单独使用基于动力学的突现再加冲击惩罚,通常无法学习任务交互或导致高方差探索。
  • 基于惩罚的突现在温和接触策略方面更有效,尤其是脆弱对象任务。
  • 该方法实现对脆弱块的成功操作(低到中等冲击),并以接近非温和基线的速度完成任务。
  • 真实机器人实验表明,在 Shadow Hand 上,基于惩罚的突现在学习速度和温和性方面优于 ICM 和基于动力学的突现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。