[论文解读] Sparse View Distractor-Free Gaussian Splatting
该论文在稀疏视角条件下,通过利用 VGGT 获取密集先验并进行基于注意力的匹配,以及 Vision-Language Models 来保留大面积静态区域,将分散干扰的三维高斯喷溅(3D Gaussian Splatting)变得鲁棒,作为 RobustGS 的热身以提升渲染与去干扰能力。
3D Gaussian Splatting (3DGS) enables efficient training and fast novel view synthesis in static environments. To address challenges posed by transient objects, distractor-free 3DGS methods have emerged and shown promising results when dense image captures are available. However, their performance degrades significantly under sparse input conditions. This limitation primarily stems from the reliance on the color residual heuristics to guide the training, which becomes unreliable with limited observations. In this work, we propose a framework to enhance distractor-free 3DGS under sparse-view conditions by incorporating rich prior information. Specifically, we first adopt the geometry foundation model VGGT to estimate camera parameters and generate a dense set of initial 3D points. Then, we harness the attention maps from VGGT for efficient and accurate semantic entity matching. Additionally, we utilize Vision-Language Models (VLMs) to further identify and preserve the large static regions in the scene. We also demonstrate how these priors can be seamlessly integrated into existing distractor-free 3DGS methods. Extensive experiments confirm the effectiveness and robustness of our approach in mitigating transient distractors for sparse-view 3DGS training.
研究动机与目标
- 在稀疏视角输入下,推动鲁棒的分散干扰去除的三维高斯喷溅(3DGS)研究。
- 利用几何基础模型生成密集初始几何和相机参数。
- 开发区分静态与瞬态区域的掩模先验以引导训练。
- 结合 Vision-Language Models 以完善大面积静态区域先验。
- 展示将先验无缝集成到现有的分散干扰去除的 3DGS 框架并展示性能提升。
提出的方法
- 使用 VGGT 估计相机参数并生成密集初始点云作为起始几何。
- 使用基于分块的类无关预测器(CropFormer)提取 2D 掩模以推导潜在静态区域。
- 进行 VGGT-注意力引导的实体匹配以创建按图像划分的静态掩模,并通过与匹配区域的 Chamfer Distance 进行验证。
- 通过提示大型未掩蔽区域以分类静态与瞬态区域,用 Vision-Language Models 增强掩模先验。
- 通过热身阶段将初始训练掩模替换为先验掩模,将先验整合到 RobustGS 中,在训练中可选的 Gaussian Bundle Adjustment(GSBA)以提升稳定性。
- 表明先验有助于在稀疏视角条件下实现可靠训练,从而改善干扰处理与 PSNR。
实验结果
研究问题
- RQ1如何构建丰富的先验以识别稀疏视角场景中的静态区域?
- RQ2VGGT 注意力图是否可用于跨视可靠的语义匹配以区分静态与瞬态对象?
- RQ3在稀疏视角下,Vision-Language Models 是否提升静态区域先验的质量?
- RQ4先验掩模是否可以有效地作为热身引入现有的分散干扰去除的 3DGS 框架,从而改善渲染质量并减少干扰?
- RQ5当 VGGT 先验与 VLM 指导结合于 RobustGS 时,在 PSNR/SSIM/LPIPS 上可以取得哪些性能提升?
主要发现
- VGGT 指导的注意力匹配为静态区域掩模提供了鲁棒的跨视对象对应关系。
- VLM 增强的先验提高静态掩模的准确性,尤其在大面积无纹理区域。
- 基于掩模先验的 RobustGS 热身带来显著的 PSNR 提升和更好的干扰处理。
- 结合 VGGT 初始化的 GSBA 在稀疏视角下进一步稳定训练与相机姿态细化。
- 综合 VGGT + VLM 的方法在各数据集上提供最稳定、最准确的先验生成。
- 所提出的先验与热身策略提升了 RobustNeRF 与 NeRF On-the-Go 数据集上的无干扰 3DGS 性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。