[论文解读] SAM3D: Segment Anything in 3D Scenes
SAM3D 将 2D SAM 掩码投射到 3D 点云,并通过逐邻帧合并掩码来生成无需训练或微调 SAM 的 3D 场景掩码。
In this work, we propose SAM3D, a novel framework that is able to predict masks in 3D point clouds by leveraging the Segment-Anything Model (SAM) in RGB images without further training or finetuning. For a point cloud of a 3D scene with posed RGB images, we first predict segmentation masks of RGB images with SAM, and then project the 2D masks into the 3D points. Later, we merge the 3D masks iteratively with a bottom-up merging approach. At each step, we merge the point cloud masks of two adjacent frames with the bidirectional merging approach. In this way, the 3D masks predicted from different frames are gradually merged into the 3D masks of the whole 3D scene. Finally, we can optionally ensemble the result from our SAM3D with the over-segmentation results based on the geometric information of the 3D scenes. Our approach is experimented with ScanNet dataset and qualitative results demonstrate that our SAM3D achieves reasonable and fine-grained 3D segmentation results without any training or finetuning of SAM.
研究动机与目标
- 在不进行训练或微调的情况下,利用 Segment Anything Model (SAM) 实现高精细度的 3D 场景分割。
- 使用带位姿的 RGB-D 数据,将来自 RGB 框架的 2D SAM 掩码投射到 3D 点云。
- 通过双向和自底向上的策略,在相邻帧之间合并部分 3D 掩码,以获得整场景的 3D 掩码。
- 通过将 SAM 推导的掩码与基于几何线索的过分割掩码进行集成来提升分割质量。
- 在 ScanNet 上展示定性结果并讨论潜在的开放词汇的 3D 分割应用。
提出的方法
- 对每个 RGB 帧应用 SAM 以获得 2D 分割掩码。
- 利用深度信息和相机内参/外参将 2D 掩码映射到 3D 空间,然后使用网格池化进行下采样。
- 基于掩码重叠和点对应关系,执行双向合并以融合相邻帧的掩码。
- 在整个场景上执行自底向上的分层合并,以获得全局 3D 掩码。
- 将 SAM3D 掩码与由几何线索推导出的过分割掩码进行集成,以提高准确性。
实验结果
研究问题
- RQ1在没有基于 3D 数据的训练的情况下,基于 SAM 的 2D 分割能否提升为对整场景的连贯 3D 掩码?
- RQ2相邻帧掩码重叠和双向合约在产生一致的 3D 区域掩码方面有多高的有效性?
- RQ3与基于几何的过分割进行集合是否能提升 3D 分割质量?
主要发现
- SAM3D 在 ScanNet 上在不进行任何训练或微调 SAM 的情况下,产生了合理且细粒度的 3D 分割结果。
- 该方法能够生成细致的掩码,例如墙面上类似绘画的细节,可能超出某些 ground-truth 注释或过分割结果。
- 双向合并和自底向上的合并逐步在帧之间统一掩码,形成整场景的 3D 掩码。
- 将 SAM3D 结果与基于几何线索的过分割进行集成,进一步通过结合 RGB 语义和几何线索来提升分割质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。