Skip to main content
QUICK REVIEW

[论文解读] Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge

Andy Zeng, Kuan‐Ting Yu|arXiv (Cornell University)|Sep 29, 2016
Robotics and Sensor-Based Localization参考文献 13被引用 35
一句话总结

本文提出一种多视角自监督深度学习方法,用于在杂乱的现实仓库环境中进行6D物体位姿估计,利用RGB-D数据和全卷积网络对多个视角下的物体进行分割,随后进行3D模型拟合。主要贡献在于一种自监督方法,可生成130,000张合成的像素级标注图像,使在APC 2016基准测试中实现49.8%的平均旋转精度和66.1%的平均平移精度,具有较强的鲁棒性。

ABSTRACT

Robot warehouse automation has attracted significant interest in recent years, perhaps most visibly in the Amazon Picking Challenge (APC). A fully autonomous warehouse pick-and-place system requires robust vision that reliably recognizes and locates objects amid cluttered environments, self-occlusions, sensor noise, and a large variety of objects. In this paper we present an approach that leverages multi-view RGB-D data and self-supervised, data-driven learning to overcome those difficulties. The approach was part of the MIT-Princeton Team system that took 3rd- and 4th- place in the stowing and picking tasks, respectively at APC 2016. In the proposed approach, we segment and label multiple views of a scene with a fully convolutional neural network, and then fit pre-scanned 3D object models to the resulting segmentation to get the 6D object pose. Training a deep neural network for segmentation typically requires a large amount of training data. We propose a self-supervised method to generate a large labeled dataset without tedious manual segmentation. We demonstrate that our system can reliably estimate the 6D pose of objects under a variety of scenarios. All code, data, and benchmarks are available at http://apc.cs.princeton.edu/

研究动机与目标

  • 解决在杂乱、遮挡和噪声严重的仓库环境中,真实标注数据有限情况下的6D物体位姿估计挑战。
  • 通过生成大规模、合成的、像素级标注的训练数据,克服深度分割网络训练中的数据稀缺问题,且无需人工标注。
  • 利用多视角RGB-D数据和已知的任务约束(如物体列表、货架模型)提升位姿估计的鲁棒性和准确性。
  • 设计一种与机器人抓取操作无缝集成的视觉系统,支持夹持器和吸盘式抓取策略。
  • 提供一个公开的基准数据集,包含来自477个场景的超过7,000张人工标注图像,用于6D位姿估计的评估。

提出的方法

  • 使用配备Intel RealSense相机的机器人系统,捕获15–18组多视角RGB-D图像。
  • 将每张彩色图像输入全卷积神经网络(FCN),进行2D实例分割,输出像素级类别标签。
  • 利用相机标定和深度数据,将2D分割掩码整合到3D点云中,实现3D物体定位。
  • 应用背景去除和3D模型拟合(使用ICP或类似方法),将预先扫描的3D CAD模型与分割后的点云对齐,以估计6D位姿。
  • 采用自监督训练流程:利用物体列表和货架模型在已知场景中模拟物体放置,然后渲染带有真实分割标签的合成RGB-D图像。
  • 在130,000张自生成的合成图像上训练FCN,利用已知的场景几何结构和物体模型,避免人工标注。

实验结果

研究问题

  • RQ1当真实世界标注数据稀缺时,自监督数据生成是否能显著提升6D位姿估计性能?
  • RQ2与单视角方法相比,多视角融合在杂乱、遮挡或噪声严重的仓库场景中如何提升鲁棒性?
  • RQ3任务特定约束(如已知物体列表、货架模型)在多大程度上能实现有效的自监督学习用于分割?
  • RQ4在具有挑战性的位姿估计场景中,使用多视角输入相较于单视角输入能带来多大的性能提升?
  • RQ5在真实世界条件下(如透明性、反光性、小物体尺寸)下,所提系统与最先进方法相比,在精度和鲁棒性方面表现如何?

主要发现

  • 整个系统在APC 2016挑战赛的所有测试环境中,实现了49.8%的平均旋转精度和66.1%的平均平移精度。
  • 使用置信度阈值(如conf-70)后,系统性能提升至64.5%的旋转精度和84.5%的平移精度,表明置信度过滤可增强鲁棒性。
  • 自监督训练流程生成了130,000张合成的像素级标注图像,显著降低了对人工标注的依赖。
  • 5v-10v和1v-2v消融实验表明,多视角输入在所有场景中均优于单视角输入,尤其在高杂乱和高遮挡场景中优势明显。
  • 若移除去噪步骤或ICP优化,性能下降,证实了这些组件在处理传感器噪声和对齐误差中的重要性。
  • 使用真实分割掩码(gt seg)后,性能提升至63.4%的旋转精度和88.1%的平移精度,表明在完美监督下该方法的性能上限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。