QUICK REVIEW

[论文解读] The Best of Both Modes: Separately Leveraging RGB and Depth for Unseen Object Instance Segmentation

Christopher Xie, Xiang Yu|arXiv (Cornell University)|Jul 30, 2019

Advanced Neural Network Applications参考文献 38被引用 31

一句话总结

该论文提出了一种两阶段框架，分别利用合成的RGB和深度数据进行未见物体实例分割，使用仅深度的掩码作为粗略种子，并通过RGB进行细化。令人惊讶的是，即使在非真实感RGB数据上进行训练，该方法在真实世界数据集上无需领域自适应即可实现最先进性能，其在OCID和OSD基准测试中表现优于Mask R-CNN等方法。

ABSTRACT

In order to function in unstructured environments, robots need the ability to recognize unseen novel objects. We take a step in this direction by tackling the problem of segmenting unseen object instances in tabletop environments. However, the type of large-scale real-world dataset required for this task typically does not exist for most robotic settings, which motivates the use of synthetic data. We propose a novel method that separately leverages synthetic RGB and synthetic depth for unseen object instance segmentation. Our method is comprised of two stages where the first stage operates only on depth to produce rough initial masks, and the second stage refines these masks with RGB. Surprisingly, our framework is able to learn from synthetic RGB-D data where the RGB is non-photorealistic. To train our method, we introduce a large-scale synthetic dataset of random objects on tabletops. We show that our method, trained on this dataset, can produce sharp and accurate masks, outperforming state-of-the-art methods on unseen object instance segmentation. We also show that our method can segment unseen objects for robot grasping. Code, models and video can be found at https://rse-lab.cs.washington.edu/projects/unseen-object-instance-segmentation/.

研究动机与目标

解决在缺乏大规模真实世界数据集的非结构化桌面环境中对未见物体实例进行分割的挑战。
克服合成数据与真实世界RGB-D传感器之间的域差距，尤其是在RGB为非真实感的情况下。
通过分别利用深度生成鲁棒的初始掩码、利用RGB进行细粒度细化，提升分割精度和边界锐度。
实现机器人感知任务（如在杂乱场景中抓取未知物体）的高效仿真到真实世界的迁移。
证明掩码细化比端到端的RGB训练对域偏移更具鲁棒性，即使在使用非真实感合成RGB数据时亦如此。

提出的方法

一种两阶段框架：首先，深度种子网络（DSN）仅使用合成深度图像生成粗略的实例掩码。
其次，区域细化网络（RRN）接收每个DSN生成的掩码及其对应的RGB图像，以细化分割边界。
RRN仅在非真实感合成RGB上进行训练，避免使用领域随机化或领域自适应技术。
DSN在合成深度数据上进行训练，以泛化至真实世界中的深度传感器噪声和遮挡。
该方法在DSN中使用2D中心投票机制来预测物体中心并生成初始掩码。
整个系统在大规模合成数据集上进行训练，该数据集包含在桌面上随机排列的ShapeNet物体，使用物理模拟和非真实感渲染生成。

实验结果

研究问题

RQ1一种分别处理深度和RGB的两阶段方法，是否能比联合处理RGB-D的方法在未见物体上实现更好的泛化性能？
RQ2在非真实感合成RGB上训练的细化网络，是否能有效泛化到真实世界RGB而无需领域自适应？
RQ3使用仅深度生成初始掩码是否能提升在真实世界环境中对传感器噪声和遮挡的鲁棒性？
RQ4所提出的方法是否能在未见物体实例分割基准测试中超越Mask R-CNN等最先进模型？
RQ5RGB与深度处理的分离在多大程度上减少了仿真到真实世界迁移中的域偏移问题？

主要发现

所提方法在未见物体实例分割的OCID和OSD基准测试中均优于最先进方法，包括Mask R-CNN。
区域细化网络（RRN）在仅使用非真实感合成RGB训练的情况下，性能可与在真实RGB数据上训练的模型相媲美。
该方法在真实世界杂乱场景中生成了清晰且准确的掩码，相较于基线方法，过分割或欠分割现象显著减少。
DSN生成了对深度传感器噪声具有鲁棒性的初始掩码，而RRN则有效利用RGB纹理纠正边界不准确问题。
在机器人抓取实验中，该方法在3次试验中成功分割并抓取了所有物体，每轮仅需1–2次额外抓取尝试，尽管因分割错误导致了部分失败。
失败案例主要源于DSN的误报或RRN将颜色相似的物体合并，而非核心框架的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。