QUICK REVIEW

[論文レビュー] Sparse View Distractor-Free Gaussian Splatting

Yi Gu, Zhaorui Wang|arXiv (Cornell University)|Mar 2, 2026

Advanced Image and Video Retrieval Techniques被引用数 0

ひとこと要約

この論文は、VGGTを用いた密 priorsと注意機構に基づくアテンションマッチング、Vision-Language Modelsを活用して大きな静的領域を保持し、ロバストGSのウォームアップとして統合することで、 sparse-view 条件下の妨害要素のない3D Gaussian Splattingを強化します。

ABSTRACT

3D Gaussian Splatting (3DGS) enables efficient training and fast novel view synthesis in static environments. To address challenges posed by transient objects, distractor-free 3DGS methods have emerged and shown promising results when dense image captures are available. However, their performance degrades significantly under sparse input conditions. This limitation primarily stems from the reliance on the color residual heuristics to guide the training, which becomes unreliable with limited observations. In this work, we propose a framework to enhance distractor-free 3DGS under sparse-view conditions by incorporating rich prior information. Specifically, we first adopt the geometry foundation model VGGT to estimate camera parameters and generate a dense set of initial 3D points. Then, we harness the attention maps from VGGT for efficient and accurate semantic entity matching. Additionally, we utilize Vision-Language Models (VLMs) to further identify and preserve the large static regions in the scene. We also demonstrate how these priors can be seamlessly integrated into existing distractor-free 3DGS methods. Extensive experiments confirm the effectiveness and robustness of our approach in mitigating transient distractors for sparse-view 3DGS training.

研究の動機と目的

sparse-view入力下で妨害要素のない3D Gaussian Splatting（3DGS）の堅牢性を動機づける。
密な初期ジオメトリとカメラパラメータを生成するために幾何学的基盤モデルを活用する。
訓練を導く静的領域と一時的領域を区別するマスク priors を開発する。
Vision-Language Modelsを導入して大規模な静的領域 priors を精練する。
priorsを既存の妨害要素のない3DGSフレームワークへシームレスに統合し、レンダリングと妨害要素除去の性能向上を示す。

提案手法

VGGTを用いてカメラパラメータを推定し、開始ジオメトリとして密な初期点群を生成する。
パッチベースのクラス非依存予測器（CropFormer）で2Dマスクを抽出し、潜在的な静的領域を導出する。
VGGT-attention ガイド付きエンティティマッチングを実行して画像ごとの静的マスクを作成し、マッチした領域に対する Chamfer Distance で検証する。
Vision-Language Models でマスク priors を強化し、大きな未マスク領域を静的 vs 一時的領域に分類するよう促す。
robustGSへ priors を統合するウォームアップ段階を設け、初期訓練マスクを prior マスクに置換、訓練中には任意の Gaussian Bundle Adjustment (GSBA) を適用可能とする。
priors が稀視点条件下での訓練を信頼性あるものにすることで、妨害要素の処理と PSNR を向上させることを示す。

実験結果

リサーチクエスチョン

RQ1sparse-view シーンで静的領域を識別するために豊富な priors をどのように構築できるか？
RQ2VGGT attentonマップを信頼性のあるクロスビュー意味的マッチングに利用して静的および一時的オブジェクトを分離できるか？
RQ3Vision-Language Modelsは sparse views の下で妨害要素のない3DGSにおける静的領域 priors の品質を向上させるか？
RQ4 priors マスクを既存の妨害要素のない3DGSフレームワークへのウォームアップとして効果的に統合して、レンダリング品質と妨害要素を改善できるか？
RQ5VGGT priors と VLM ガイダンスを RobustGS と組み合わせた場合、PSNR/SSIM/LPIPS でどの程度の性能向上が得られるか？

主な発見

VGGT-guided attention matching は静的領域マスキングのための頑健なクロスビュー対応を導出する。
VLM強化 priors は特に大規模なテクスチャレス領域において静的マスクの精度を向上させる。
マスク priors を用いた RobustGS のウォームアップは PSNR の大幅な改善と妨害要素の処理改善をもたらす。
VGGT 初期化と GSBA を併用することで、稀視点下での訓練安定性とカメラ姿勢の洗練をさらに安定化させる。
組み合わせた VGGT + VLM アプローチはデータセット全体で最も安定かつ正確な priors を生成する。
提案された priors とウォームアップ戦略は RobustNeRF および NeRF On-the-Go データセットで妨害要素のない3DGSの性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。