[论文解读] Segment Any 4D Gaussians
SA4D 将 Segment Anything 扩展到 4D 高斯表示,通过学习时序身份场来解决高斯漂移,实现 4D 高斯散斑中的快速、开放世界分割和动态场景编辑。
Modeling, understanding, and reconstructing the real world are crucial in XR/VR. Recently, 3D Gaussian Splatting (3D-GS) methods have shown remarkable success in modeling and understanding 3D scenes. Similarly, various 4D representations have demonstrated the ability to capture the dynamics of the 4D world. However, there is a dearth of research focusing on segmentation within 4D representations. In this paper, we propose Segment Any 4D Gaussians (SA4D), one of the first frameworks to segment anything in the 4D digital world based on 4D Gaussians. In SA4D, an efficient temporal identity feature field is introduced to handle Gaussian drifting, with the potential to learn precise identity features from noisy and sparse input. Additionally, a 4D segmentation refinement process is proposed to remove artifacts. Our SA4D achieves precise, high-quality segmentation within seconds in 4D Gaussians and shows the ability to remove, recolor, compose, and render high-quality anything masks. More demos are available at: https://jsxzs.github.io/sa4d/.
研究动机与目标
- 将 4D 分割重新表述为基于形变的 4D 高斯表示。
- 开发时序身份特征场以解决随时间变化的高斯漂移。
- 将高斯身份表和后处理集成以提炼分割质量。
- 利用来自视频追踪器的 2D 监督在没有 GT 4D 标签的情况下训练 4D 分割。
- 在 4D 场景中演示实时渲染与编辑能力(移除、重新着色、组合)。
提出的方法
- 以 4D 高斯散斑(4D-GS)作为 4D 表示,使用全局标准三维高斯基底和形变场。
- 引入时间身份特征场网络,从其规范位置和时间预测每个高斯的时间变身份特征 e。
- 使用微小的卷积解码器和 softmax 对每个高斯的身份进行分类,使得可从视频追踪器掩码获得 2D 身份监督。
- 定义导出 4D 高斯的过程,将基于形变的预测与基于身份的预测融合以导出每个时间戳的高斯。
- 在缺乏 GT 4D 标签的情况下,使用 2D 伪分割损失(L2D)和 3D 正则化损失(L3D)来监督身份特征。
- 应用 2D 分割细化后处理步骤以消除离群点并解决边界模糊,同时维持一个高斯身份表(M)以实现近邻时间戳内插。
实验结果
研究问题
- RQ1如何将 SAM 风格的分割扩展到开放世界的 4D 高斯表示?
- RQ2时序身份特征场是否能缓解 4D-GS 中随时间变化的高斯漂移?
- RQ3什么样的监督策略能够在没有地面真相的 4D 标签的情况下实现 4D 分割?
- RQ4 refinement 与身份表机制如何提升 4D 场景的分割质量和渲染速度?
- RQ5在动态场景中,SA4D 可实现哪些编辑能力(移除、重新着色、组合)?
主要发现
| 模型 | mIoU (%) (HyperNeRF) | mAcc (%) (HyperNeRF) | mIoU (%) (Neu3D) | mAcc (%) (Neu3D) |
|---|---|---|---|---|
| SAGA | 65.25 | 75.56 | 76.26 | 81.56 |
| Gaussian Grouping | 69.53 | 91.55 | 87.02 | 98.72 |
| Ours w/o TFF (w/o Refinement) | 80.26 | 99.56 | - | - |
| Ours w/ TFF (w/o Refinement) | 81.10 | 99.54 | 80.14 | 99.88 |
| Ours w/ all | 89.86 | 99.24 | 93.02 | 99.76 |
- SA4D 能在 RTX 3090 上实现快速交互式的 4D 分割,耗时在数秒内完成。
- 引入时序身份场可降低高斯漂移并提高随时间的一致性。
- 来自 2D 视频追踪器掩码的时序身份监督结合 3D 正则化,在动态场景中相对于 3D 基线实现了更高的分割精度。
- 高斯身份表使近实时渲染和编辑成为可能,与基线 4D-GS 相比几乎不增加额外存储。
- 细化步骤显著减少伪影与边界模糊,提升动态场景的 IoU 与准确度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。