[论文解读] Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter
VGN 预测 TSDF 体素中每个体素的6自由度抓取质量、朝向与宽度,实现对杂物场景的实时抓取,无需显式碰撞检测。它在合成数据上训练,并以 GPU 加速推理在大约 10 ms 内转移至真实机器人。
General robot grasping in clutter requires the ability to synthesize grasps that work for previously unseen objects and that are also robust to physical interactions, such as collisions with other objects in the scene. In this work, we design and train a network that predicts 6 DOF grasps from 3D scene information gathered from an on-board sensor such as a wrist-mounted depth camera. Our proposed Volumetric Grasping Network (VGN) accepts a Truncated Signed Distance Function (TSDF) representation of the scene and directly outputs the predicted grasp quality and the associated gripper orientation and opening width for each voxel in the queried 3D volume. We show that our approach can plan grasps in only 10 ms and is able to clear 92% of the objects in real-world clutter removal experiments without the need for explicit collision checking. The real-time capability opens up the possibility for closed-loop grasp planning, allowing robots to handle disturbances, recover from errors and provide increased robustness. Code is available at https://github.com/ethz-asl/vgn.
研究动机与目标
- 在杂乱场景中推动实时的6-DOF抓取合成。
- 利用完整的3D场景信息来隐式处理碰撞,无需显式检查。
- 开发一个端到端的FCN,将TSDF输入映射到体素级抓取质量、方向和宽度。
- 展示从合成训练到真实机器人系统的迁移,且不进行微调。
提出的方法
- 将场景的TSDF表示作为输入馈给一个全卷积网络(FCN)。
- 为每个体素产生三头输出:抓取质量 q、方向 r(以四元数表示),以及夹具宽度 w。
- 在合成的杂乱抓取试验上端到端训练,损失包含质量、旋转和宽度项的组合。
- 通过在旋转损失中允许替代的地面真实值方向来为平行钳式夹具处理对称性。
- 应用非极大值抑制和体素屏蔽以提取可执行的最佳抓取候选。
实验结果
研究问题
- RQ1体素级的端到端FCN是否能够直接从杂乱场景的TSDF预测高质量的6-DOF抓取?
- RQ2与依赖部分观测的方法相比,使用完整3D场景信息是否在拥挤场景中提升了碰撞回避和抓取成功率?
- RQ3使用VGN是否可以实现实时抓取规划,且仅在仿真中训练的模型能否无微调地迁移到真实机器人?
主要发现
- VGN 实现了实时规划,在 GPU 上每次推理约 10 ms。
- 在模拟的杂乱场景实验中,VGN在成功率和清除对象数上均优于 GPD,在若干场景中。
- 在抓取质量阈值为0.9–0.95时,VGN在高成功率与清除更多对象之间取得平衡。
- VGN在不额外微调的情况下迁移到真实机器人,10轮中达到80%成功率和92%清除对象。
- 仅CPU的真实机器人推理较慢(约1.25 s),但在没有GPU时仍然可用。
- 一些现实世界的失败归因于物理仿真中的摩擦与真实摩擦之间的差异(例如圆柱形物体)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。