QUICK REVIEW

[论文解读] Learning RGB-D Feature Embeddings for Unseen Object Instance Segmentation

Xiang Yu, Christopher Xie|arXiv (Cornell University)|Jul 30, 2020

Advanced Image and Video Retrieval Techniques参考文献 32被引用 45

一句话总结

本文从合成数据中学习 RGB-D 特征嵌入，采用度量学习损失，并使用 von Mises-Fisher 均值漂移对嵌入进行聚类以实现未见对象实例分割，在两阶段的放大细化辅助下。

ABSTRACT

Segmenting unseen objects in cluttered scenes is an important skill that robots need to acquire in order to perform tasks in new environments. In this work, we propose a new method for unseen object instance segmentation by learning RGB-D feature embeddings from synthetic data. A metric learning loss function is utilized to learn to produce pixel-wise feature embeddings such that pixels from the same object are close to each other and pixels from different objects are separated in the embedding space. With the learned feature embeddings, a mean shift clustering algorithm can be applied to discover and segment unseen objects. We further improve the segmentation accuracy with a new two-stage clustering algorithm. Our method demonstrates that non-photorealistic synthetic RGB and depth images can be used to learn feature embeddings that transfer well to real-world images for unseen object instance segmentation.

研究动机与目标

在杂乱桌面场景中将目标分割泛化到未见对象
结合非真实感 RGB 数据与深度信息来学习鲁棒嵌入
提出一种度量学习损失，在嵌入空间按对象对像素进行聚类
应用两阶段聚类（放大细化）以改善分割边界
在真实 RGB-D 数据集上展示对未见对象实例分割的最新方法性能

提出的方法

用全卷积网络处理 RGB-D 图像，产生密集像素嵌入
用度量学习损失训练，使用单位长度嵌入的余弦距离最小化同一对象内距离、最大化不同对象间距离
在嵌入空间使用球面的 (von Mises-Fisher) 均值漂移聚类来发现对象分割
通过三种策略（早期融合、带加法的晚期融合、带拼接的晚期融合）融合 RGB 与深度并评估其影响
引入两阶段聚类：(i) 对图像中所有像素进行聚类，(ii) 放大感兴趣区域 RoIs 并使用在合成 RoIs 上训练的 RoI 级聚类网络进行细化
在测试阶段，应用均值漂移聚类获得分割，并使用两阶段细化来提高清晰度边界并分离靠近的对象

实验结果

研究问题

RQ1能否将从合成、非真实感 RGB 数据学习的 RGB-D 特征嵌入迁移到真实 RGB-D 图像以实现未见对象分割？
RQ2哪种 RGB-D 融合策略能为 UOIS 提供最佳泛化？
RQ3两阶段（放大）聚类是否提高分割质量，特别是边界准确性和近距离对象的分离？
RQ4在 OCID 和 OSD 数据集上，该方法与最新的 UOIS 方法相比如何？

主要发现

在各方法中，使用深度显著提升性能，并且提出的方法在通过 Late Fusion Addition 将 RGB 与深度融合时受益于 RGB 信息
Unseen Clustering Network (UCN) 在 OCID 与 OSD 数据集的 Overlap F-measure 和 Boundary F-measure 上取得了最先进的结果
两阶段放大细化在所有输入模式下始终提升边界指标以及 F-measure ≥ 0.75 的对象比例
在同一合成数据上训练的 Mask R-CNN 基线方法之上，使用 RGB-D Late Fusion Addition+Zoom-in 细化结合所提出的度量学习方法可获得更好性能
由于其自下而上的嵌入空间聚类方法，该方法具有更高的召回率，同时保持具有竞争力的精确度

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。