QUICK REVIEW

[论文解读] Deep Learning a Grasp Function for Grasping under Gripper Pose Uncertainty

Edward Johns, Stefan Leutenegger|arXiv (Cornell University)|Aug 7, 2016

Robot Manipulation and Learning参考文献 17被引用 33

一句话总结

本文提出一种深度学习方法，仅从单张深度图像中预测所有可能夹爪姿态的抓取质量得分（即抓取函数），并通过与不确定性分布进行平滑处理，实现对姿态不确定性下的鲁棒抓取。该方法在仿真和真实世界实验中均优于标准方法，尤其在高不确定性条件下表现更优，实现了在真实机器人姿态误差下的80.3%抓取成功率。

ABSTRACT

This paper presents a new method for parallel-jaw grasping of isolated objects from depth images, under large gripper pose uncertainty. Whilst most approaches aim to predict the single best grasp pose from an image, our method first predicts a score for every possible grasp pose, which we denote the grasp function. With this, it is possible to achieve grasping robust to the gripper's pose uncertainty, by smoothing the grasp function with the pose uncertainty function. Therefore, if the single best pose is adjacent to a region of poor grasp quality, that pose will no longer be chosen, and instead a pose will be chosen which is surrounded by a region of high grasp quality. To learn this function, we train a Convolutional Neural Network which takes as input a single depth image of an object, and outputs a score for each grasp pose across the image. Training data for this is generated by use of physics simulation and depth image simulation with 3D object meshes, to enable acquisition of sufficient data without requiring exhaustive real-world experiments. We evaluate with both synthetic and real experiments, and show that the learned grasp score is more robust to gripper pose uncertainty than when this uncertainty is not accounted for.

研究动机与目标

解决由于传感器噪声、标定误差和机械变形导致的显著夹爪姿态不确定性带来的机器人抓取挑战。
开发一种抓取函数，为每一个可能的夹爪姿态分配一个质量得分，而非仅预测单一最优姿态。
通过将抓取函数与高斯不确定性核进行卷积，实现对姿态不确定性的边际化处理，从而提升鲁棒性。
利用物理仿真和3D物体网格的合成深度图像，生成大规模、多样化的训练数据，避免高昂的真实世界数据采集成本。
在配备真实姿态不确定性的Kinova MICO机械臂上，于仿真和真实世界环境中验证该方法。

提出的方法

训练一个卷积神经网络（CNN），为深度图像中每个离散化的夹爪姿态预测抓取质量得分，生成二维抓取函数。
通过从3D物体网格渲染深度图像，并利用物理仿真器评估抓取稳定性，合成训练数据。
姿态不确定性在图像空间（uv位置和旋转θ）中建模为二维高斯分布，标准差σ_uv和σ_θ由真实机器人测量结果估计。
通过将抓取函数与不确定性核进行卷积，实现平滑处理，生成对姿态偏差具有鲁棒性的抓取函数，优先选择周围高质量区域密集的夹爪姿态。
最终夹爪姿态选择为平滑后鲁棒抓取函数的最大值，确保即使夹爪偏离预期姿态也能保持稳定。
在配备腕部安装深度相机的真实机器人臂（Kinova MICO）上进行评估，使用20种日常物品，以将物体提升20厘米离桌作为成功标准。

实验结果

研究问题

RQ1深度神经网络能否从单张深度图像中学习到对所有可能夹爪姿态进行评分的完整抓取函数？
RQ2通过建模的姿态不确定性分布对抓取函数进行平滑处理，是否能在控制误差存在时实现更鲁棒的抓取？
RQ3当姿态不确定性较高或较低时，该鲁棒抓取函数的性能与标准方法相比如何？
RQ4通过物理仿真和深度图像渲染生成的合成数据，能否有效迁移至真实世界的机器人抓取任务？
RQ5增加姿态不确定性如何影响鲁棒方法中最终抓取姿态的选择？

主要发现

在真实世界抓取任务中，该鲁棒抓取函数方法在机器人实际姿态不确定性下（σ_uv = 6.2像素，σ_θ = 4.7°）实现了80.3%的成功率，优于基线方法“Best Grasp”（78.0%）和“Centroid”方法（75.2%）。
当姿态不确定性增加至σ_uv = 20像素和σ_θ = 15°时，鲁棒方法的成功率提升至70.1%，而“Best Grasp”方法下降至62.4%，表明在高不确定性下具有更优的鲁棒性。
该方法通过引导夹爪避开不稳定抓取区域，即使单个最优姿态靠近易碰撞或不稳定的区域，也能选择周围高质量得分密集的区域，从而实现稳定抓取。
在高不确定性条件下，最优抓取姿态通常会避开厚重或复杂的物体部分，而更倾向于选择细长特征的中心区域，表明其具备有效的不确定性感知规划能力。
从合成数据学习到的抓取函数在真实世界执行中表现出良好的泛化能力，验证了基于仿真的数据生成在机器人操作任务中的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。