QUICK REVIEW

[论文解读] Learning Deep Policies for Physics-Based Manipulation in Clutter.

Wissam Bejjani, Rafael Papallas|arXiv (Cornell University)|Mar 21, 2018

Robot Manipulation and Learning参考文献 10被引用 1

一句话总结

本文提出一种混合学习方法，结合模仿学习与强化学习，以训练深度策略，实现复杂环境中基于物理的抓取操作。通过首先从示范中学习动作价值函数，并利用前瞻规划器和强化学习进行优化，该方法在存在不确定动力学的情况下仍能实现鲁棒的现实世界性能，在模拟和真实世界的杂乱环境抓取任务中优于基线的模仿学习与仅规划方法。

ABSTRACT

Uncertainty in modeling real world physics makes transferring traditional open-loop motion planning techniques from simulation to the real world particularly challenging. Available closed-loop policy learning approaches, for physics-based manipulation tasks, typically either focus on single object manipulation, or rely on imitation learning, which inherently constrains task generalization and performance to the available demonstrations. In this work, we propose an approach to learn a policy for physics-based manipulation in clutter, which enables the robot to react to the uncertain dynamics of the real world. We start with presenting an imitation learning technique which compiles demonstrations from a sampling-based planner into an action-value function encoded as a deep neural network. We then use the learned action-value function to guide a look-ahead planner, giving us a control policy. Lastly, we propose to refine the deep action-value function through reinforcement learning, taking advantage of the look-ahead planner. We evaluate our approach in a physics-enabled simulation environment with artificially injected uncertainty, as well as in a real world task of manipulation in clutter.

研究动机与目标

解决由于物理动力学不确定性导致的从仿真环境到真实世界运动规划迁移的挑战。
克服现有闭环策略学习方法的局限性，这些方法通常聚焦于单对象任务，或完全依赖模仿学习且泛化能力受限。
开发一种策略，使机器人能够在杂乱环境中执行抓取操作时对不可预测的真实物理动态做出动态响应。
通过结合模仿学习与强化学习，提升策略在演示数据分布之外的任务泛化能力与性能。

提出的方法

使用基于采样的规划器生成多样化的示范，随后将其编译为深度神经网络，通过模仿学习编码一个动作价值函数。
将学习到的动作价值函数集成到前瞻规划器中，生成一种可响应执行过程中动态变化的反应式控制策略。
通过强化学习对深度动作价值函数进行优化，利用前瞻规划器作为策略滚动初始化机制，以提升样本效率与策略质量。
在支持物理仿真的环境中注入人工不确定性，以在类似真实世界条件下测试方法的鲁棒性与泛化能力。
在包含不确定性的模拟环境以及涉及杂乱场景的真实世界抓取任务中评估最终策略。
利用模仿学习（实现快速初始策略学习）与强化学习（实现微调与适应）之间的协同效应，实现鲁棒且可泛化的控制策略。

实验结果

研究问题

RQ1能否有效利用从示范中学习到的深度动作价值函数，指导前瞻规划器在杂乱抓取任务中实现实时决策？
RQ2将模仿学习与强化学习结合，如何提升在物理动力学不确定性存在情况下的策略鲁棒性与泛化能力？
RQ3所提出方法在模拟与真实世界抓取任务中，相较于纯模仿学习或仅规划的基线方法，性能提升程度如何？
RQ4前瞻规划器的集成在多大程度上增强了策略处理杂乱环境中动态交互的能力？

主要发现

与基线的模仿学习和仅规划方法相比，所提方法在模拟与真实世界的杂乱抓取任务中均表现出更优性能。
将学习到的动作价值函数与前瞻规划器结合，使机器人能够有效应对实时执行过程中的动态变化与不确定性。
通过强化学习进行优化显著提升了策略在演示轨迹分布之外的鲁棒性与泛化能力。
尽管在仿真中注入了模拟到现实的领域差距，该方法仍成功实现了真实世界迁移，表明其对物理不确定性的强适应能力。
该混合方法减少了对专家示范的依赖，同时保持了高任务成功率，表明样本效率与可扩展性得到提升。
最终策略在面对物体重新排列与意外动力学时表现出更强的鲁棒性，在复杂杂乱场景中优于基线方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。