Skip to main content
QUICK REVIEW

[论文解读] Learning 6-DoF Grasping and Pick-Place Using Attention Focus

Marcus Gualtieri, Robert W. Platt|arXiv (Cornell University)|Jun 15, 2018
Robot Manipulation and Learning参考文献 27被引用 23
一句话总结

本文提出了一种基于注意力聚焦动作选择的强化学习框架,用于6-DoF抓取与抓放操作。通过将任务建模为具有抽象状态与动作表示的马尔可夫决策过程,并施加分层SE(3)采样(HSE3S),机器人能够聚焦于任务相关的场景区域,从而实现在杂乱环境中对新物体的样本高效学习,并实现从仿真到现实的迁移,真实任务的成功率达到60-90%。

ABSTRACT

We address a class of manipulation problems where the robot perceives the scene with a depth sensor and can move its end effector in a space with six degrees of freedom -- 3D position and orientation. Our approach is to formulate the problem as a Markov decision process (MDP) with abstract yet generally applicable state and action representations. Finding a good solution to the MDP requires adding constraints on the allowed actions. We develop a specific set of constraints called hierarchical $ ext{SE}(3)$ sampling (HSE3S) which causes the robot to learn a sequence of gazes to focus attention on the task-relevant parts of the scene. We demonstrate the effectiveness of our approach on three challenging pick-place tasks (with novel objects in clutter and nontrivial places) both in simulation and on a real robot, even though all training is done in simulation.

研究动机与目标

  • 解决在杂乱的真实环境中对新物体实现样本高效6-DoF抓取与抓放操作的挑战。
  • 通过基于注意力的状态与动作抽象,改善高维连续动作空间(SE(3))中的泛化能力并减轻维度灾难。
  • 通过学习紧凑且任务相关的表征以及受约束的动作序列,实现鲁棒的仿真到现实的迁移。
  • 通过奖励函数调节,将6-DoF抓取与放置统一到单一策略框架中。
  • 在包含杂乱场景中新型物体的复杂非平凡抓放任务上验证该方法。

提出的方法

  • 将操作任务建模为马尔可夫决策过程(MDP),其中状态表示为编码任务相关视觉特征与3D位姿信息的抽象状态。
  • 引入分层SE(3)采样(HSE3S),即对感知动作施加一组约束,强制机器人在选择末端执行器位姿前,按顺序凝视场景中与任务相关的部分。
  • 使用深度Q网络(DQN)变体来学习抽象状态-动作对上的价值函数,其中动作为6-DoF末端执行器位姿,状态为聚焦于相关场景区域的指示性图像。
  • 在仿真环境中完全端到端训练策略,使用密集奖励、稀疏奖励或塑形奖励信号,由仿真器自动提供成功反馈。
  • 推理阶段采用n次采样:评估多个抓取与放置候选动作,剔除低价值动作,并利用逆运动学与运动规划寻找可达位姿。
  • 利用领域随机化与紧凑的状态表征,实现直接迁移到真实UR5机器人上,无需微调。

实验结果

研究问题

  • RQ1单一强化学习策略是否能仅通过奖励信号,同时学习在杂乱场景中对新物体进行6-DoF抓取与6-DoF放置?
  • RQ2分层SE(3)采样(HSE3S)在高维连续动作空间中如何提升样本效率与泛化能力?
  • RQ3在未使用领域随机化或微调的情况下,仿真中训练的策略在真实机器人上成功迁移的程度如何?
  • RQ4真实部署中的主要失败模式是什么?它们与仿真性能之间有何关联?
  • RQ5注意力聚焦的动作选择是否能有效减小动作空间,并提升对部分可观测性与新物体形状的鲁棒性?

主要发现

  • 在真实世界实验中,该系统在方块放置任务中达到64%的任务成功率,咖啡杯放置任务为76%,瓶子放置任务为57%(排除检测失败情况)。
  • 若包含检测失败,任务成功率下降至方块64%、咖啡杯78%、瓶子60%,表明对场景不确定性的鲁棒性。
  • 抓取成功率在方块上最高(96%),在咖啡杯上最低(86%),咖啡杯抓取失败主要归因于仿真中泛化能力不足。
  • 瓶子放置失败主要由于方向错误(倒置,7次)或靠近杯垫边缘(6次),与仿真趋势一致。
  • 该方法成功实现了从仿真到真实UR5机器人的无微调迁移,证明了有效的仿真到现实迁移能力。
  • HSE3S通过约束机器人聚焦于相关场景区域,实现了高效的探索,减小了有效动作空间,提升了学习稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。