QUICK REVIEW

[论文解读] 3D Object Detection and Pose Estimation of Unseen Objects in Color Images with Local Surface Embeddings

Giorgia Pitteri, Aurélie Bugeau|arXiv (Cornell University)|Oct 8, 2020

Robot Manipulation and Learning参考文献 63被引用 27

一句话总结

该论文提出了一种新颖的6D物体位姿估计方法，仅使用物体的CAD模型和RGB图像，无需对未见过的、无纹理的物体进行微调。该方法利用可学习的局部表面嵌入（LSEs）从RGB图像中建立2D-3D对应关系，结合无类别感知的Mask R-CNN进行物体分割，并通过RANSAC与PnP联合实现鲁棒的位姿估计，在T-LESS数据集上实现了最先进性能，且无需深度信息或真实边界框。

ABSTRACT

We present an approach for detecting and estimating the 3D poses of objects in images that requires only an untextured CAD model and no training phase for new objects. Our approach combines Deep Learning and 3D geometry: It relies on an embedding of local 3D geometry to match the CAD models to the input images. For points at the surface of objects, this embedding can be computed directly from the CAD model; for image locations, we learn to predict it from the image itself. This establishes correspondences between 3D points on the CAD model and 2D locations of the input images. However, many of these correspondences are ambiguous as many points may have similar local geometries. We show that we can use Mask-RCNN in a class-agnostic way to detect the new objects without retraining and thus drastically limit the number of possible correspondences. We can then robustly estimate a 3D pose from these discriminative correspondences using a RANSAC- like algorithm. We demonstrate the performance of this approach on the T-LESS dataset, by using a small number of objects to learn the embedding and testing it on the other objects. Our experiments show that our method is on par or better than previous methods.

研究动机与目标

实现对未见过的、无纹理的工业物体的6D位姿估计，仅使用其CAD模型和RGB图像，且无需为每个新物体重新训练模型。
解决在真实工业场景中，对称、无纹理且未见过的物体所面临的位姿歧义问题。
开发一种可在不同物体类别间泛化的位姿估计方法，通过学习对旋转不变且对遮挡具有鲁棒性的几何嵌入。
在推理阶段消除对深度数据、真实边界框或真实掩码的依赖。

提出的方法

该方法引入了一种可学习的局部表面嵌入（LSE），用于捕捉表面点周围3D几何结构，且对旋转具有不变性。
在已知物体的合成图像上训练深度神经网络，以预测输入RGB图像中每个像素的LSE。
将图像像素的LSE与CAD模型上预计算的3D点LSE进行匹配，从而建立2D-3D对应关系。
使用无类别感知的Mask R-CNN检测并分割图像中的未知物体，将对应关系限制在同一个物体上，从而减少歧义。
对匹配后的对应关系应用RANSAC与PnPsolver，以鲁棒地估计6D物体位姿。
通过LSE的几何不变性以及无类别感知Mask R-CNN的零样本分割能力，使方法能够泛化至新物体。

实验结果

研究问题

RQ1深度学习模型能否从RGB图像中预测出可泛化至未见过的、无纹理物体的局部表面嵌入，且无需微调？
RQ2当物体无纹理且对称，且缺乏先验知识或真实标注时，如何鲁棒地建立2D-3D对应关系？
RQ3无类别感知的Mask R-CNN能否有效分割图像中的未知物体，以约束RANSAC采样并减少位姿歧义？
RQ4在T-LESS基准上，该方法在位姿精度和对未见类别的泛化能力方面与最先进方法相比表现如何？
RQ5该方法能否在不使用深度数据或真实边界框的情况下实现具有竞争力的性能？

主要发现

在BOP基准协议下，该方法实现了23.27的平均VSD召回率，优于MP-Encoder（20.53），展现出对未见物体的强大泛化能力。
在T-LESS测试集上，该方法在15个未知物体中的13个上优于CorNet，平均准确率达到46.7%（±12.0），表现出优异的鲁棒性与泛化能力。
该方法能有效处理具有圆润形状、无明显角点的物体，而无需依赖角点检测，如定性结果所示。
LSE预测网络在有纹理物体上也表现出良好泛化能力，如在T-LESS物体上随机添加纹理后仍能成功预测LSE。
该方法在不依赖深度、真实掩码或边界框的情况下实现了具有竞争力的性能，适用于真实工业部署。
由于LSE的旋转不变性以及结合掩码约束的RANSAC使用，该方法对遮挡和对称性具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。