QUICK REVIEW

[论文解读] Learning 6-DoF Grasping and Pick-Place Using Attention Focus

Marcus Gualtieri, Robert W. Platt|arXiv (Cornell University)|Jun 15, 2018

Robot Manipulation and Learning参考文献 27被引用 23

一句话总结

本文提出了一种基于注意力聚焦动作选择的强化学习框架，用于6-DoF抓取与抓放操作。通过将任务建模为具有抽象状态与动作表示的马尔可夫决策过程，并施加分层SE(3)采样（HSE3S），机器人能够聚焦于任务相关的场景区域，从而实现在杂乱环境中对新物体的样本高效学习，并实现从仿真到现实的迁移，真实任务的成功率达到60-90%。

ABSTRACT

We address a class of manipulation problems where the robot perceives the scene with a depth sensor and can move its end effector in a space with six degrees of freedom -- 3D position and orientation. Our approach is to formulate the problem as a Markov decision process (MDP) with abstract yet generally applicable state and action representations. Finding a good solution to the MDP requires adding constraints on the allowed actions. We develop a specific set of constraints called hierarchical $ ext{SE}(3)$ sampling (HSE3S) which causes the robot to learn a sequence of gazes to focus attention on the task-relevant parts of the scene. We demonstrate the effectiveness of our approach on three challenging pick-place tasks (with novel objects in clutter and nontrivial places) both in simulation and on a real robot, even though all training is done in simulation.

研究动机与目标

解决在杂乱的真实环境中对新物体实现样本高效6-DoF抓取与抓放操作的挑战。
通过基于注意力的状态与动作抽象，改善高维连续动作空间（SE(3)）中的泛化能力并减轻维度灾难。
通过学习紧凑且任务相关的表征以及受约束的动作序列，实现鲁棒的仿真到现实的迁移。
通过奖励函数调节，将6-DoF抓取与放置统一到单一策略框架中。
在包含杂乱场景中新型物体的复杂非平凡抓放任务上验证该方法。

提出的方法

将操作任务建模为马尔可夫决策过程（MDP），其中状态表示为编码任务相关视觉特征与3D位姿信息的抽象状态。
引入分层SE(3)采样（HSE3S），即对感知动作施加一组约束，强制机器人在选择末端执行器位姿前，按顺序凝视场景中与任务相关的部分。
使用深度Q网络（DQN）变体来学习抽象状态-动作对上的价值函数，其中动作为6-DoF末端执行器位姿，状态为聚焦于相关场景区域的指示性图像。
在仿真环境中完全端到端训练策略，使用密集奖励、稀疏奖励或塑形奖励信号，由仿真器自动提供成功反馈。
推理阶段采用n次采样：评估多个抓取与放置候选动作，剔除低价值动作，并利用逆运动学与运动规划寻找可达位姿。
利用领域随机化与紧凑的状态表征，实现直接迁移到真实UR5机器人上，无需微调。

实验结果

研究问题

RQ1单一强化学习策略是否能仅通过奖励信号，同时学习在杂乱场景中对新物体进行6-DoF抓取与6-DoF放置？
RQ2分层SE(3)采样（HSE3S）在高维连续动作空间中如何提升样本效率与泛化能力？
RQ3在未使用领域随机化或微调的情况下，仿真中训练的策略在真实机器人上成功迁移的程度如何？
RQ4真实部署中的主要失败模式是什么？它们与仿真性能之间有何关联？
RQ5注意力聚焦的动作选择是否能有效减小动作空间，并提升对部分可观测性与新物体形状的鲁棒性？

主要发现

在真实世界实验中，该系统在方块放置任务中达到64%的任务成功率，咖啡杯放置任务为76%，瓶子放置任务为57%（排除检测失败情况）。
若包含检测失败，任务成功率下降至方块64%、咖啡杯78%、瓶子60%，表明对场景不确定性的鲁棒性。
抓取成功率在方块上最高（96%），在咖啡杯上最低（86%），咖啡杯抓取失败主要归因于仿真中泛化能力不足。
瓶子放置失败主要由于方向错误（倒置，7次）或靠近杯垫边缘（6次），与仿真趋势一致。
该方法成功实现了从仿真到真实UR5机器人的无微调迁移，证明了有效的仿真到现实迁移能力。
HSE3S通过约束机器人聚焦于相关场景区域，实现了高效的探索，减小了有效动作空间，提升了学习稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。