QUICK REVIEW

[论文解读] Learning Dexterous Manipulation for a Soft Robotic Hand from Human Demonstration

Abhishek Gupta, Clemens Eppner|arXiv (Cornell University)|Mar 21, 2016

Robot Manipulation and Learning参考文献 27被引用 32

一句话总结

本文提出了一种强化学习框架，使软体机械手（RBO Hand 2）能够从仅包含物体运动的人类示范中学习灵巧操作——即仅示范物体的运动轨迹——通过自动选择并融合可行的示范进行模仿。该方法采用一种新颖的交替优化方案，结合引导策略搜索（guided policy search），训练出一个单一、可泛化的神经网络策略，在阀门旋转、算盘操作和抓取任务中实现了与手工设计基线相当的性能。

ABSTRACT

Dexterous multi-fingered hands can accomplish fine manipulation behaviors that are infeasible with simple robotic grippers. However, sophisticated multi-fingered hands are often expensive and fragile. Low-cost soft hands offer an appealing alternative to more conventional devices, but present considerable challenges in sensing and actuation, making them difficult to apply to more complex manipulation tasks. In this paper, we describe an approach to learning from demonstration that can be used to train soft robotic hands to perform dexterous manipulation tasks. Our method uses object-centric demonstrations, where a human demonstrates the desired motion of manipulated objects with their own hands, and the robot autonomously learns to imitate these demonstrations using reinforcement learning. We propose a novel algorithm that allows us to blend and select a subset of the most feasible demonstrations to learn to imitate on the hardware, which we use with an extension of the guided policy search framework to use multiple demonstrations to learn generalizable neural network policies. We demonstrate our approach on the RBO Hand 2, with learned motor skills for turning a valve, manipulating an abacus, and grasping.

研究动机与目标

使低成本、软体的机械手在缺乏精确传感与执行能力的情况下实现灵巧操作。
通过从以物体为中心的示范中学习，克服人类示范者与机械手之间形态不匹配的挑战。
开发一种自动选择并融合最可行示范进行模仿的方法，而非依赖手工设计的代价函数。
通过引导策略搜索训练单一、可泛化的神经网络策略，使其在多种初始手-物体配置下均能泛化。
在真实世界任务中验证该方法，包括阀门旋转、算盘珠操作和抓取，使用 RBO Hand 2 机械手。

提出的方法

该方法使用以物体为中心的示范——仅记录人类操作过程中被跟踪物体的轨迹——而无需完整的手部运动学数据或直接遥操作。
一种新颖的算法在将示范分配给控制器与通过以轨迹为中心的强化学习优化控制器之间交替进行，从而为每个初始状态选择最可行的示范。
该方法将引导策略搜索（GPS）扩展至训练单一、高维的神经网络策略，统一多个在不同示范上训练的局部控制器。
该算法基于可行性程度对示范进行软分配，使策略能够根据初始条件动态选择模仿哪个示范。
采用 $ l_2 $-距离代价函数衡量示范轨迹与策略输出之间的差异，并使用高斯滤波提高控制信号的时间一致性。
该方法仅使用人类示范数据端到端训练策略，无需手工设计的奖励函数或动力学教学。

实验结果

研究问题

RQ1软体机械手能否仅从以物体为中心的人类示范中学习复杂灵巧操作任务，而无需完整的手部运动数据或直接遥操作？
RQ2当机器人的形态与人类示范者不同时，如何训练策略以在多种初始手-物体配置下实现泛化？
RQ3在形态不匹配的情况下，何种算法机制能够实现对最可行示范的自动选择与融合以用于模仿？
RQ4通过引导策略搜索训练的单一神经网络策略，在仅使用示范数据的情况下，能在多大程度上达到手工设计基线的性能？
RQ5从以物体为中心的示范中进行强化学习，能否在真实世界任务（如阀门旋转和算盘操作）中实现稳健性能？

主要发现

所提出的方法在bottle抓取任务中实现了与手工设计基线相当的性能，在全部10次测试试验中均成功抓取物体。
在算盘任务中，所学习的策略在所有三个测试位置上，均比单个示范基线和手工设计的开环策略更有效地将目标珠子移向目标位置。
在泛化能力方面，该方法优于“理想”策略（oracle policy），因为该理想策略未针对不同初始配置进行训练以适应变化。
该算法成功基于可行性选择并融合了示范，使机器人能根据算盘位置使用不同手指，而手工设计的基线无法实现此能力。
通过示范对应关系分配的强化学习使策略能够泛化至不同初始状态，而仅在一个位置训练的控制器则无法实现泛化。
该方法在延迟奖励环境（如抓取任务）中表现出鲁棒性，其中奖励信号稀疏且时间延迟较长。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。