QUICK REVIEW

[论文解读] Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge

Andy Zeng, Kuan‐Ting Yu|arXiv (Cornell University)|Sep 29, 2016

Robotics and Sensor-Based Localization参考文献 13被引用 35

一句话总结

本文提出一种多视角自监督深度学习方法，用于在杂乱的现实仓库环境中进行6D物体位姿估计，利用RGB-D数据和全卷积网络对多个视角下的物体进行分割，随后进行3D模型拟合。主要贡献在于一种自监督方法，可生成130,000张合成的像素级标注图像，使在APC 2016基准测试中实现49.8%的平均旋转精度和66.1%的平均平移精度，具有较强的鲁棒性。

ABSTRACT

Robot warehouse automation has attracted significant interest in recent years, perhaps most visibly in the Amazon Picking Challenge (APC). A fully autonomous warehouse pick-and-place system requires robust vision that reliably recognizes and locates objects amid cluttered environments, self-occlusions, sensor noise, and a large variety of objects. In this paper we present an approach that leverages multi-view RGB-D data and self-supervised, data-driven learning to overcome those difficulties. The approach was part of the MIT-Princeton Team system that took 3rd- and 4th- place in the stowing and picking tasks, respectively at APC 2016. In the proposed approach, we segment and label multiple views of a scene with a fully convolutional neural network, and then fit pre-scanned 3D object models to the resulting segmentation to get the 6D object pose. Training a deep neural network for segmentation typically requires a large amount of training data. We propose a self-supervised method to generate a large labeled dataset without tedious manual segmentation. We demonstrate that our system can reliably estimate the 6D pose of objects under a variety of scenarios. All code, data, and benchmarks are available at http://apc.cs.princeton.edu/

研究动机与目标

解决在杂乱、遮挡和噪声严重的仓库环境中，真实标注数据有限情况下的6D物体位姿估计挑战。
通过生成大规模、合成的、像素级标注的训练数据，克服深度分割网络训练中的数据稀缺问题，且无需人工标注。
利用多视角RGB-D数据和已知的任务约束（如物体列表、货架模型）提升位姿估计的鲁棒性和准确性。
设计一种与机器人抓取操作无缝集成的视觉系统，支持夹持器和吸盘式抓取策略。
提供一个公开的基准数据集，包含来自477个场景的超过7,000张人工标注图像，用于6D位姿估计的评估。

提出的方法

使用配备Intel RealSense相机的机器人系统，捕获15–18组多视角RGB-D图像。
将每张彩色图像输入全卷积神经网络（FCN），进行2D实例分割，输出像素级类别标签。
利用相机标定和深度数据，将2D分割掩码整合到3D点云中，实现3D物体定位。
应用背景去除和3D模型拟合（使用ICP或类似方法），将预先扫描的3D CAD模型与分割后的点云对齐，以估计6D位姿。
采用自监督训练流程：利用物体列表和货架模型在已知场景中模拟物体放置，然后渲染带有真实分割标签的合成RGB-D图像。
在130,000张自生成的合成图像上训练FCN，利用已知的场景几何结构和物体模型，避免人工标注。

实验结果

研究问题

RQ1当真实世界标注数据稀缺时，自监督数据生成是否能显著提升6D位姿估计性能？
RQ2与单视角方法相比，多视角融合在杂乱、遮挡或噪声严重的仓库场景中如何提升鲁棒性？
RQ3任务特定约束（如已知物体列表、货架模型）在多大程度上能实现有效的自监督学习用于分割？
RQ4在具有挑战性的位姿估计场景中，使用多视角输入相较于单视角输入能带来多大的性能提升？
RQ5在真实世界条件下（如透明性、反光性、小物体尺寸）下，所提系统与最先进方法相比，在精度和鲁棒性方面表现如何？

主要发现

整个系统在APC 2016挑战赛的所有测试环境中，实现了49.8%的平均旋转精度和66.1%的平均平移精度。
使用置信度阈值（如conf-70）后，系统性能提升至64.5%的旋转精度和84.5%的平移精度，表明置信度过滤可增强鲁棒性。
自监督训练流程生成了130,000张合成的像素级标注图像，显著降低了对人工标注的依赖。
5v-10v和1v-2v消融实验表明，多视角输入在所有场景中均优于单视角输入，尤其在高杂乱和高遮挡场景中优势明显。
若移除去噪步骤或ICP优化，性能下降，证实了这些组件在处理传感器噪声和对齐误差中的重要性。
使用真实分割掩码（gt seg）后，性能提升至63.4%的旋转精度和88.1%的平移精度，表明在完美监督下该方法的性能上限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。