QUICK REVIEW

[论文解读] Deep Dynamics Models for Learning Dexterous Manipulation

Anusha Nagabandi, Kurt Konoglie|arXiv (Cornell University)|Sep 25, 2019

Robot Manipulation and Learning参考文献 38被引用 67

一句话总结

论文提出 PDDM，一种基于深度模型的 RL 方法，使用带学习动力学的在线规划的集合，以在高自由度手上实现样本高效、灵巧的操控，包括现实世界的 24-DoF，数据量约 ~4 hours。

ABSTRACT

Dexterous multi-fingered hands can provide robots with the ability to flexibly perform a wide range of manipulation skills. However, many of the more complex behaviors are also notoriously difficult to control: Performing in-hand object manipulation, executing finger gaits to move objects, and exhibiting precise fine motor skills such as writing, all require finely balancing contact forces, breaking and reestablishing contacts repeatedly, and maintaining control of unactuated objects. Learning-based techniques provide the appealing possibility of acquiring these skills directly from data, but current learning approaches either require large amounts of data and produce task-specific policies, or they have not yet been shown to scale up to more complex and realistic tasks requiring fine motor skills. In this work, we demonstrate that our method of online planning with deep dynamics models (PDDM) addresses both of these limitations; we show that improvements in learned dynamics models, together with improvements in online model-predictive control, can indeed enable efficient and effective learning of flexible contact-rich dexterous manipulation skills -- and that too, on a 24-DoF anthropomorphic hand in the real world, using just 4 hours of purely real-world data to learn to simultaneously coordinate multiple free-floating objects. Videos can be found at https://sites.google.com/view/pddm/

研究动机与目标

在复杂接触动力学条件下，激发多指手内在操控的学习。
开发一个样本高效的基于模型的强化学习框架，能够扩展到高维操控器。
利用具不确定性感知的神经动力学与在线规划实现鲁棒的实时控制。
通过在 24-DoF 的仿人手上使用有限数据学习复杂任务，展示现实世界的应用性。

提出的方法

使用深度神经网络将 s′|s,a 建模为均值为 fθ(s,a) 的高斯分布，并带有学得或固定的协方差，捕捉复杂的手-物体交互。
使用引导集成来估计动力学的不确定性，从而在规划过程中提高鲁棒性。
应用具有模型预测控制（MPC）的在线规划，通过学习的动力学预测结果来选择短期动作序列。
探索无梯度轨迹优化器，从 Random Shooting 改进到 Iterative Random-Shooting with Reward-Weighted Refinement（PDDM），包括基于软奖励加权路径积分形式的计划更新规则。
结合动作序列平滑与时间相关探索，通过采样一个均值轨迹加过滤噪声，降低搜索维度并提高规划稳定性。
在每一步，使用集成预测的奖励优化一个 H-步序列，执行第一步动作，然后用更新的状态信息重新规划以闭环。

实验结果

研究问题

RQ1深度模型为基础的 RL 方法配合在线规划，是否能够在仿真和现实世界中学习一组多样化的灵巧操控技能？
RQ2设计选择（模型容量、集成、规划时长、规划算法、奖励加权）如何影响性能和数据效率？
RQ3PDDM 与最先进的基于模型和无模型的 RL 方法在高维度灵巧任务上的表现如何？
RQ4学习到的动力学模型是否能跨任务泛化并可用于相关的操控挑战？
RQ5将该方法转移到一个完全现实世界的 24-DoF 手部自由浮动对象操控，在有限数据条件下是否可行？

主要发现

PDDM 在数据显著更少的情况下就能学习复杂的灵巧操控任务，优于以往方法。
集成可以提高稳定性和性能，特别是在训练初期，因为它捕捉了模型的不确定性。
规划时长需取得平衡；太短会变得贪婪，太长则容易累积模型误差。
PDDM 配合基于奖励加权路径积分的规划和动作平滑，优于随机射击和基于 CEM 的规划器。
在 24-DoF Shadow Hand 上，PDDM 对 90° Baoding 球旋转的成功率接近 100%，对 180° 旋转的成功率约为 54%，使用约 2 小时的真实世界数据（Baoding 任务）。
真实世界 Baoding 球实验表明可在真实环境中进行训练，配合 10 Hz 的规划器和 1 kHz 的低层控制器，实现 2 小时的训练效率并具备对相关任务的可迁移性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。