Skip to main content
QUICK REVIEW

[论文解读] Weakly Supervised 3D Open-vocabulary Segmentation

Kunhao Liu, Fangneng Zhan|arXiv (Cornell University)|May 23, 2023
Multimodal Machine Learning Applications被引用 7
一句话总结

本论文将 open-vocabulary CLIP 和 DINO 的知识蒸馏到 NeRF,以实现基于多视图图像和文本描述的3D开放词汇分割,无需分割注释,在某些场景中超过了一些完全监督的基线。

ABSTRACT

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting pre-trained foundation models CLIP and DINO in a weakly supervised manner. Specifically, given only the open-vocabulary text descriptions of the objects in a scene, we distill the open-vocabulary multimodal knowledge and object reasoning capability of CLIP and DINO into a neural radiance field (NeRF), which effectively lifts 2D features into view-consistent 3D segmentation. A notable aspect of our approach is that it does not require any manual segmentation annotations for either the foundation models or the distillation process. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations in certain scenes, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs. Code is available at \url{https://github.com/Kunhao-Liu/3D-OVS}.

研究动机与目标

  • 由于拥有多样标签的3D数据集稀缺,推动开放词汇的3D场景分割。
  • 提出一个从 CLIP 和 DINO 到 NeRF 的弱监督蒸馏框架,无需注释。
  • 开发将图像级 CLIP 特征适配为像素级 3D 分割的机制(3D 选择体、多尺度补丁)。
  • 通过 Relevancy-Distribution Alignment (RDA) 缓解 CLIP 的歧义,并通过 Feature-Distribution Alignment (FDA) 蒸馏基于 DINO 的边界信息。
  • 在可分割注释缺失的情况下,展示强的3D开放词汇分割性能,覆盖长尾类别。

提出的方法

  • 从图像补丁中提取多尺度像素级 CLIP 特征,使用3D 选择体为每个3D 点选择合适尺度。
  • 在光线沿程上渲染 RGB 和 CLIP 特征,并通过渲染的 CLIP 特征与类别文本特征之间的余弦相似度计算分割对数。
  • 引入 Relevancy-Distribution Alignment (RDA) 损失,使分割概率与归一化的类别相关性地图对齐。
  • 引入 Feature-Distribution Alignment (FDA) 损失,使分割分布与基于 DINO 的场景布局和边界对齐,并对相似/不相似特征赋予再平衡权重。
  • 在没有任何分割注释的情况下,使用 RGB 重投影与特征余弦相似度,以及类似 LDA 的对齐损失进行监督训练。

实验结果

研究问题

  • RQ13D 开放词汇分割是否可以仅从2D 图像-文本数据中学习,而无需手动分割注释?
  • RQ2如何在不进行微调的情况下,使 CLIP 图像级特征对 3D NeRF 分割像素级别准确?
  • RQ3哪些损失和机制最能使 CLIP 与 DINO 的特征对齐,以实现鲁棒的3D分割?
  • RQ4该方法在3D场景中的长尾物体类别上的表现如何?
  • RQ5使用有限输入视图和尺度对分割质量的影响是什么?

主要发现

  • 所提出的方法在多个场景中在没有分割注释的情况下,优于若干2D和3D开放词汇基线。
  • 通过选择体与多尺度补丁,可以将 CLIP 派生的特征提升到3D,从而实现视图一致的分割。
  • RDA 和 FDA 损失在缓解 CLIP 歧义和提取 DINO 边界方面至关重要。
  • 即使输入视图或尺度有限,该方法仍保持竞争性能,显示了鲁棒性。
  • 在某些场景中,该弱监督方法甚至优于用分割掩码进行完全监督的模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。