[论文解读] Towards Label-free Scene Understanding by Vision Foundation Models
本文提出 Cross-modality Noisy Supervision (CNS),通过利用 CLIP 与 SAM 实现 2D 与 3D 的无标签语义分割,在 ScanNet、nuImages 和 nuScenes 上取得经验性增益。
Vision foundation models such as Contrastive Vision-Language Pre-training (CLIP) and Segment Anything (SAM) have demonstrated impressive zero-shot performance on image classification and segmentation tasks. However, the incorporation of CLIP and SAM for label-free scene understanding has yet to be explored. In this paper, we investigate the potential of vision foundation models in enabling networks to comprehend 2D and 3D worlds without labelled data. The primary challenge lies in effectively supervising networks under extremely noisy pseudo labels, which are generated by CLIP and further exacerbated during the propagation from the 2D to the 3D domain. To tackle these challenges, we propose a novel Cross-modality Noisy Supervision (CNS) method that leverages the strengths of CLIP and SAM to supervise 2D and 3D networks simultaneously. In particular, we introduce a prediction consistency regularization to co-train 2D and 3D networks, then further impose the networks' latent space consistency using the SAM's robust feature representation. Experiments conducted on diverse indoor and outdoor datasets demonstrate the superior performance of our method in understanding 2D and 3D open environments. Our 2D and 3D network achieves label-free semantic segmentation with 28.4\% and 33.5\% mIoU on ScanNet, improving 4.7\% and 7.9\%, respectively. For nuImages and nuScenes datasets, the performance is 22.1\% and 26.8\% with improvements of 3.5\% and 6.0\%, respectively. Code is available. (https://github.com/runnanchen/Label-Free-Scene-Understanding).
研究动机与目标
- 推动在开放世界环境中实现 2D 与 3D 的无标签场景理解。
- 利用视觉基础模型 CLIP(分类)与 SAM(分割)生成嘈杂的伪标签。
- 开发一个联合框架,在存在标签噪声的情况下对 2D 与 3D 网络进行监督。
- 使用基于 SAM 的潜在空间正则化来对齐并稳定多模态表示。
- 展示在室内与室外数据集上的最先进无标签分割。
提出的方法
- 使用 CLIP 对 2D 像素生成伪标签,并通过标定矩阵将其转移到 3D 点。
- 用 SAM 掩码对 CLIP 派生的伪标签进行细化,以提高监督质量。
- 通过在模态之间随机切换伪标签,使用预测一致性正则化来训练 2D 与 3D 网络。
- 使用余弦相似度损失 (L_f) 将 2D/3D 特征与冻结的 SAM 特征空间对齐,强制潜在空间的一致性。
- 两阶段训练:第一阶段使用 refined 标签进行训练;第二阶段在多伪标签来源上引入自训练和跨训练。
- 主干网络:3D 使用 MinkowskiNet34,2D 使用 DeeplabV3;将 CLIP 注意力汇聚修改为适用于密集像素标注。
实验结果
研究问题
- RQ1视觉基础模型是否能够实现开放世界、无标签的 2D 与 3D 场景理解?
- RQ2如何将 CLIP 与 SAM 结合以产生健壮的嘈杂伪标签用于跨模态监督?
- RQ3与切换伪标签共同训练 2D 与 3D 网络是否能减缓来自标签噪声的错误传播?
- RQ4使用 SAM 特征的潜在空间对齐是否能在无标签情景中改善分割边界?
- RQ5提出 的 CNS 框架在室内(ScanNet)和室外(nuScenes、nuImages)数据集上在无标签数据情况下的表现如何?
主要发现
- 所提出的 CNS 框架实现了 2D 与 3D 数据的无标签语义分割,在 ScanNet 和 nuScenes 上超越了先前的无标签方法。
- 在 ScanNet 上,2D mIoU 为 28.4%,3D mIoU 为 33.5%,分别比先前方法提高 4.7% 和 7.9%。
- 在 nuImages 和 nuScenes,2D 与 3D 的结果分别是 22.1% 与 26.8% mIoU,相较基线分别提升 3.5% 与 6.0%。
- 消融研究表明:基于 SAM 的标签细化、预测一致性正则化以及与 SAM 特征的一致性潜在空间对性能至关重要。
- 全部组件的 CNS 配置在所评估的数据集上获得最佳的无标签 2D/3D 分割结果。
- 定性结果证明该方法在无需标签的情况下能够分割大量开放世界对象,在若干情形接近人类水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。