QUICK REVIEW

[论文解读] Learning Contact-Rich Manipulation Skills with Guided Policy Search

Sergey Levine, Nolan Wagener|arXiv (Cornell University)|Jan 22, 2015

Robot Manipulation and Learning参考文献 25被引用 50

一句话总结

本文提出了一种引导策略搜索方法，通过使用通用的时间变参数线性高斯控制器学习接触丰富的操作技能，并利用神经网络将这些控制器统一为单一的非线性策略。该方法仅需数分钟的真实世界交互和极少的先验知识，即可实现复杂且鲁棒的操作行为的快速、样本高效学习——例如组装玩具飞机和插入紧密配合的零件。

ABSTRACT

Autonomous learning of object manipulation skills can enable robots to acquire rich behavioral repertoires that scale to the variety of objects found in the real world. However, current motion skill learning methods typically restrict the behavior to a compact, low-dimensional representation, limiting its expressiveness and generality. In this paper, we extend a recently developed policy search method \cite{la-lnnpg-14} and use it to learn a range of dynamic manipulation behaviors with highly general policy representations, without using known models or example demonstrations. Our approach learns a set of trajectories for the desired motion skill by using iteratively refitted time-varying linear models, and then unifies these trajectories into a single control policy that can generalize to new situations. To enable this method to run on a real robot, we introduce several improvements that reduce the sample count and automate parameter selection. We show that our method can acquire fast, fluent behaviors after only minutes of interaction time, and can learn robust controllers for complex tasks, including putting together a toy airplane, stacking tight-fitting lego blocks, placing wooden rings onto tight-fitting pegs, inserting a shoe tree into a shoe, and screwing bottle caps onto bottles.

研究动机与目标

实现复杂、接触丰富的操作任务的自主学习，而无需依赖预定义的低维策略表示或专家示范。
通过引入自适应采样和步长调整，降低真实世界机器人学习中的样本复杂度。
通过合成数据增强，提高学习策略在新条件（如新目标位置）下的泛化能力。
通过引导策略搜索，从少量真实世界试验中训练高容量非线性策略（例如深度神经网络）。
开发一种适用于多样化操作任务（包括插入、堆叠和拧紧）的一般成本函数框架。

提出的方法

使用迭代重拟合的时间变参数线性高斯控制器，为给定任务学习多样化轨迹，从而高效探索复杂动力学。
应用引导策略搜索，将多个线性高斯控制器统一为具有任意参数化的单一非线性策略（如深度神经网络）。
引入一种自适应样本数量调整方案，通过动态调节每轮迭代的真实世界试验次数，减少交互时间。
开发一种步长自适应方法，在任务早期较简单阶段加速学习，提升样本效率。
通过从估计的状态-动作边缘分布中抽取的合成样本，增强非线性策略的训练数据集，以补偿真实世界数据的稀缺性。
使用具有软 ReLU 非线性激活和线性输出层的两隐藏层神经网络表示最终策略，以实现复杂操作所需的高表达能力。

实验结果

研究问题

RQ1通用的、高维的策略表示能否在不了解物体动力学或无专家示范的情况下学习接触丰富的操作技能？
RQ2在复杂操作任务的真实世界机器人学习中，如何提升样本效率？
RQ3在仅基于有限初始条件集进行训练后，单一非线性策略在新目标位置和构型下的泛化能力能达到何种程度？
RQ4合成数据增强是否能有效补偿真实世界数据稀疏性，以训练深度神经网络策略？
RQ5如何通过自适应采样和步长控制增强引导策略搜索，以减少真实机器人平台上的交互时间？

主要发现

该方法在仅数分钟的真实世界交互后，成功学习到鲁棒、快速且流畅的操作行为，包括组装玩具飞机、堆叠紧密配合的乐高积木，以及插入鞋撑。
神经网络策略在环套销和乐高积木任务的测试位置上均达到 100% 的成功率，尽管训练仅基于四个初始位置，仍能泛化到新目标位置。
在训练中对插孔位置添加噪声，使策略能够学习目标位置与成功之间的通用映射，降低对特定关节构型的过拟合。
自适应样本数量和步长方案显著减少了所需的真实世界试验次数，使该方法在真实机器人部署中更具实用性。
从估计的状态-动作边缘分布中进行的合成数据增强，使得仅用极少的真实世界数据即可训练大型神经网络，提升了策略的泛化能力。
最终的非线性策略在未见过的测试点上表现出有效的泛化能力，包括训练期间未出现的位置，展示了强大的鲁棒性和适应性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。