QUICK REVIEW

[论文解读] Inferring 3D Object Pose in RGB-D Images

Saurabh Gupta, Pablo Arbeláez|arXiv (Cornell University)|Feb 16, 2015

Advanced Neural Network Applications参考文献 18被引用 30

一句话总结

本文提出了一种新颖的方法，通过在合成数据上使用像素法线训练卷积神经网络（CNN），实现RGB-D图像中3D物体位姿的推断，其性能优于在真实数据上训练的模型。该方法结合了实例分割、基于CNN的位姿估计以及基于ICP的模型对齐，相较于最先进方法，3D检测性能相对提升了48%，同时速度快一个数量级。

ABSTRACT

The goal of this work is to replace objects in an RGB-D scene with corresponding 3D models from a library. We approach this problem by first detecting and segmenting object instances in the scene using the approach from Gupta et al. [13]. We use a convolutional neural network (CNN) to predict the pose of the object. This CNN is trained using pixel normals in images containing rendered synthetic objects. When tested on real data, it outperforms alternative algorithms trained on real data. We then use this coarse pose estimate along with the inferred pixel support to align a small number of prototypical models to the data, and place the model that fits the best into the scene. We observe a 48% relative improvement in performance at the task of 3D detection over the current state-of-the-art [33], while being an order of magnitude faster at the same time.

研究动机与目标

通过用准确的3D CAD模型替换检测到的物体，使机器人能够与杂乱的室内场景交互。
解决传统输出（如边界框或分割掩码）在抓取规划和运动优化等机器人任务中不足的问题。
通过利用从合成数据上训练的CNN获得的粗略位姿估计，结合3D模型对齐，提升3D检测性能。
证明使用法线图像进行合成数据训练，相比真实数据训练，能实现更好的泛化能力，适用于3D位姿估计。

提出的方法

使用预训练的物体检测与实例分割系统（Gupta等人 [13]）生成物体建议和像素级掩码。
训练CNN以使用合成RGB-D图像及其像素法线作为输入，预测3D物体位姿，而非使用深度图。
将CNN的前两个位姿假设用作基于ICP优化的模型对齐阶段的初始化。
通过在小型3D CAD模型库中搜索最佳匹配的模型、其缩放比例和空间位置，实现模型拟合。
采用两阶段优化：首先通过CNN进行粗略位姿预测，然后通过ICP对齐3D模型以提高精度。
利用分割掩码的2D标注和深度信息，生成丰富的3D场景表征，而无需依赖3D标注。

实验结果

研究问题

RQ1在合成RGB-D数据上使用法线图像作为输入训练的CNN，是否比在真实数据上训练的模型在真实世界3D位姿估计中泛化能力更强？
RQ2当使用CNN提供的粗略位姿估计作为初始化时，基于ICP的模型对齐在类别级别（而非实例级别）下的有效性如何？
RQ3在存在噪声或不完美实例分割的情况下，3D模型定位性能会下降到何种程度？
RQ4一种仅从2D标注和深度信息推断3D模型的系统，是否能实现优于现有方法的3D检测性能？
RQ5初始化质量、位姿假设数量以及模型库的多样性对最终3D模型对齐精度有何影响？

主要发现

在合成数据上使用法线图像训练的CNN优于真实数据训练的模型，在3D检测性能上相比最先进方法实现了48%的相对提升。
在检测设置中，当 t_agree = ∞ 时，平均精度（AP）达到28.2%，当 t_agree = 7 时为14.4%，表明对分割噪声具有鲁棒性。
即使使用真实分割结果，模型定位任务的 AP^m 仍为48.5%，表明将3D模型拟合到真实数据存在显著挑战。
该方法的速度至少比当前最先进方法[33]快一个数量级，后者每张图像每类别耗时25分钟。
使用两个位姿假设而非一个，性能提升6个百分点，且合适的初始化显著提升了ICP的收敛性。
人工挑选的、能捕捉多样化形状变化的模型库优于随机选择，且随着模型数量增加，性能持续提升，但收益递减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。