Skip to main content
QUICK REVIEW

[논문 리뷰] Sparse View Distractor-Free Gaussian Splatting

Yi Gu, Zhaorui Wang|arXiv (Cornell University)|2026. 03. 02.
Advanced Image and Video Retrieval Techniques인용 수 0
한 줄 요약

본 논문은 희소 시점 조건에서 VGGT를 활용한 조밀한 priors 및 어텐션 기반 매칭, 더하여 Vision-Language Models를 이용한 대규모 정적 영역 보존을 통해 방해 객체 없는 3D Gaussian Splatting을 강화하고, RobustGS의 워밍업으로 렌더링 및 방해물 제거를 개선한다.

ABSTRACT

3D Gaussian Splatting (3DGS) enables efficient training and fast novel view synthesis in static environments. To address challenges posed by transient objects, distractor-free 3DGS methods have emerged and shown promising results when dense image captures are available. However, their performance degrades significantly under sparse input conditions. This limitation primarily stems from the reliance on the color residual heuristics to guide the training, which becomes unreliable with limited observations. In this work, we propose a framework to enhance distractor-free 3DGS under sparse-view conditions by incorporating rich prior information. Specifically, we first adopt the geometry foundation model VGGT to estimate camera parameters and generate a dense set of initial 3D points. Then, we harness the attention maps from VGGT for efficient and accurate semantic entity matching. Additionally, we utilize Vision-Language Models (VLMs) to further identify and preserve the large static regions in the scene. We also demonstrate how these priors can be seamlessly integrated into existing distractor-free 3DGS methods. Extensive experiments confirm the effectiveness and robustness of our approach in mitigating transient distractors for sparse-view 3DGS training.

연구 동기 및 목표

  • 희소-뷰 입력에서 distractor-free 3D Gaussian Splatting (3DGS)의 강건성을 입증한다.
  • dense 초기 기하학 및 카메라 매개변수를 생성하기 위해 기하학 기초 모델을 활용한다.
  • 훈련을 안내하기 위해 정적 영역과 순간적 영역을 구분하는 마스크 priors를 개발한다.
  • 대형 정적 영역 priors를 정제하기 위해 Vision-Language Models를 도입한다.
  • priors를 기존의 distractor-free 3DGS 프레임워크에 원활하게 통합하고 렌더링 품질과 방해물 제거의 이점을 보여준다.

제안 방법

  • VGGT를 사용하여 카메라 매개변수를 추정하고 시작 기하로서 조밀한 초기 포인트 구름을 생성한다.
  • 패치 기반의 클래스 비의존 예측기(CropFormer)로 2D 마스크를 추출하여 잠재적인 정적 영역을 도출한다.
  • VGGT-주의 guided 엔티티 매칭을 수행하여 이미지별 정적 마스크를 생성하고, 매칭된 영역에 대한 Chamfer Distance로 검증한다.
  • 대형 비마스크 영역을 분류하도록 프롬프트를 통한 시각-언어 모델로 마스크 priors를 강화한다.
  • 초기 훈련 마스크를 priors로 대체하는 워밍업 단계에서 RobustGS에 priors를 통합하고, 훈련 중 선택적으로 Gaussian Bundle Adjustment(GSBA)을 수행한다.
  • priors가 희소-뷰 조건에서 안정적인 훈련을 가능하게 하여 방해물 처리 및 PSNR을 향상시킨다.]
  • research_questions,

실험 결과

연구 질문

  • RQ1희소-뷰 장면에서 정적 영역을 식별하기 위해 풍부한 priors를 어떻게 구성할 수 있는가?
  • RQ2VGGT 주의 맵을 활용하여 정적 객체와 순간적 객체를 구분하기 위한 신뢰할 수한 교차 시점 의미 매칭이 가능한가?
  • RQ3Vision-Language Models가 희소 뷰에서 distractor-free 3DGS의 정적 영역 priors의 품질을 향상시키는가?
  • RQ4priors 마스크를 기존의 distractor-free 3DGS 프레임워크에 워밍업으로 효과적으로 통합하여 렌더링 품질과 방해물을 개선할 수 있는가?
  • RQ5VGGT priors와 VLM 가이던스와 함께 RobustGS를 결합했을 때 PSNR/SSIM/LPIPS의 성능 향상이 어떤가?

주요 결과

  • VGGT-가이드된 주의 매칭은 정적 영역 마스킹을 위한 강건한 교차 시점 객체 대응을 제공합니다.
  • VLM으로 강화된 priors는 특히 대형 무질감 영역에서 정적 마스크의 정확성을 향상시킵니다.
  • RobustGS에서 마스크 priors 가이던스 워밍업은 PSNR의 상당한 증가와 더 나은 방해물 처리 성능을 제공합니다.
  • VGGT 초기화와 함께 GSBA를 도입하면 희소 뷰에서 훈련 안정성과 카메라 자세 정제를 더 잘 수행합니다.
  • 결합된 VGGT + VLM 접근법이 모든 데이터셋에서 가장 안정적이고 정확한 priors 생성을 제공합니다.
  • 제안된 priors와 워밍업 전략은 RobustNeRF 및 NeRF On-the-Go 데이터셋에서 distractor-free 3DGS 성능을 개선합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.