[论文解读] Segment Anything in 3D with Radiance Fields
SA3D 使用 NeRF 作为 3D 先验,通过迭代的掩模逆渲染和跨视角自提示,将 SAM 的二维分割提升到三维,数分钟内完成 3D 分割,无需重新训练 SAM 或 NeRF。
The Segment Anything Model (SAM) emerges as a powerful vision foundation model to generate high-quality 2D segmentation results. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the radiance field as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, short for Segment Anything in 3D. With SA3D, the user is only required to provide a 2D segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its corresponding 2D mask with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively refine the 3D mask of the target object. For one view, mask inverse rendering projects the 2D mask obtained by SAM into the 3D space with guidance of the density distribution learned by the radiance field for 3D mask refinement; Then, cross-view self-prompting extracts reliable prompts automatically as the input to SAM from the rendered 2D mask of the inaccurate 3D mask for a new view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within seconds. Our research reveals a potential methodology to lift the ability of a 2D segmentation model to 3D. Our code is available at https://github.com/Jumpat/SegmentAnythingin3D.
研究动机与目标
- 推动将二维视觉基础模型(SAM)扩展到 3D,而不需要对 3D 模型进行高成本训练。
- 提出一个基于 NeRF 的框架,将二维 SAM 提示连接到三维体素掩码。
- 开发一个掩模逆渲染和跨视图自提示的迭代流程,以完成 3D 掩码。
- 通过仅更新 3D 掩码网格而不更新 SAM 或 NeRF 参数,保持轻量级的方法。
提出的方法
- 在一个预训练的 NeRF 下渲染一个视图,并在该视图中使用提示获得一个二维 SAM 掩码。
- 通过密度引导的掩码逆渲染将 2D SAM 掩码投影到 3D 体素网格。
- 从当前 3D 掩码渲染一个新视图,并从渲染出的掩码为 SAM 生成自动提示(跨视图自提示)。
- 通过对掩码投影损失进行梯度下降来更新 3D 掩码,使 SAM 掩码与投影的 3D 掩码对齐,并包含用于多视角一致性的负向细化项。
- 在各视图之间迭代,直到 3D 掩码完成,且不重新训练 SAM 或 NeRF。
实验结果
研究问题
- RQ1是否可以利用 NeRF 作为 3D 先验,将二维分割基础模型(SAM)有效地提升到 3D?
- RQ2掩模逆渲染结合跨视图自提示的框架是否在各种场景中产生准确的 3D 分割?
- RQ3需要多少个视图才能获得可靠的 3D 掩码,超参数如何影响质量与稳定性?
- RQ4基于 IoU 的视图拒绝机制对分割质量有什么影响?
- RQ5SA3D 与 NVOS、SPIn-NeRF 和 Replica 数据集上的现有 3D 分割方法相比如何?
主要发现
- SA3D 在 NVOS 上以 mIoU 90.3% 和 mAcc 98.2% 超越了前样方法。
- 在 NVOS 上,SA3D 的 mIoU (70.1% 对 39.4%) 和 mAcc (92.0% 对 73.6%) 分别高于 Graph-cut (3D)。
- 在 SPIn-NeRF 上,SA3D 达到 IoU 最高 97.7–98.3% 并在各场景中具有高准确性。
- 在 Replica 上,SA3D 相对于单视图和 MVSeg 基线将均值 IoU 显著提高到 83.0%。
- 消融实验表明使用 3 个提示(n_p ≈ 3)在各场景之间实现了性能与可靠性的平衡。
- SA3D 能在几分钟内实现 3D 分割,无需重新训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。