QUICK REVIEW

[論文レビュー] Enhancing Novel View Synthesis via Geometry Grounded Set Diffusion

Farhad Ghazvinian Zanjani, Hong Cai|arXiv (Cornell University)|Jan 12, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

ViewMorpher3D は、3D 幾何学的 priors、カメラ姿勢、およびマルチビュー参照に基づく拡散ベースの復元を用いて、クロスビューおよび時間的一貫性を改善することで、3D Gauss嚢散描画シーンの新規視点合成を強化します。

ABSTRACT

We present SetDiff, a geometry-grounded multi-view diffusion framework that enhances novel-view renderings produced by 3D Gaussian Splatting. Our method integrates explicit 3D priors, pixel-aligned coordinate maps and pose-aware Plucker ray embeddings, into a set-based diffusion model capable of jointly processing variable numbers of reference and target views. This formulation enables robust occlusion handling, reduces hallucinations under low-signal conditions, and improves photometric fidelity in visual content restoration. A unified set mixer performs global token-level attention across all input views, supporting scalable multi-camera enhancement while maintaining computational efficiency through latent-space supervision and selective decoding. Extensive experiments on EUVS, Para-Lane, nuScenes, and DL3DV demonstrate significant gains in perceptual fidelity, structural similarity, and robustness under severe extrapolation. SetDiff establishes a state-of-the-art diffusion-based solution for realistic and reliable novel-view synthesis in autonomous driving scenarios.

研究の動機と目的

観測が希薄で基線が広い自動運転環境におけるロバストなマルチビュー新規視点合成（NVS）の必要性を動機づける。
幾何学を意識した拡散エンハンサーを開発し、可変数のカメラ数と時刻ステップへスケーラブルにする。
RGB レンダリングを超えた幾何学的条件付け信号を取り入れ、構造的忠実度とマルチビュー一貫性を向上させる。
効率とクロスビュー結合をバランスさせるため、潜在空間監視と選択的ピクセル空間監視を組み合わせる。
挑戦的な運転データセットにおいて、最先端ベースラインよりも画像品質と幾何学的妥当性を改善することを示す。

提案手法

幾何学的グラウドディフュージョンエンハンサー（ViewMorpher3D）を導入し、可変カードinality の参照視点とターゲット視点を同時に処理する。
拡散デノイザーをRGB 入力に加えて、幾何学信号（C-マップ）とポーズ埋め込み（Plücker 光線場）で条件付けする。
潜在空間拡散フレームワーク（SD-Turbo）を用い、学習済みエンコーダ Psi が C-マップ、Plücker 埋め込み、および視点マスクを統合して条件付ける2D UNet を用いる。
復元過程で全視点に対して全3D自己注意を適用し、クロスビュー空間的一貫性を強制する。
メモリを管理しクロスビュー一貫性を維持するため、ターゲット全体で潜在空間監視を採用し、ピクセル空間監視を選択的に適用する。
ドメインギャップを橋渡しし再構成忠実度を向上させるため、LoRA を介して VAE デコーダを微調整する。

Figure 1 : ViewMorpher3D improves rendered novel views via multi-view diffusion, conditioned on camera images, poses, and the scene’s 3D structure.

実験結果

リサーチクエスチョン

RQ1拡散ベースのエンハンサーは、幾何学を意識した条件付けを用いて、3D Gauss嚢散描画シーンにおけるマルチビューNVSを改善できるか？
RQ2マルチビュー（および時間）条件付けは、強化視点のクロスビュー一貫性と時間的一貫性にどう影響するか？
RQ3参照視点数とターゲット視点数の変動が強化品質に与える影響はどの程度か？
RQ4幾何学に基づく条件付けは、外挿運転シナリオにおけるRGB のみの拡散エンハンサーと比較してアーティファクトや幻視を減らすか？
RQ5ViewMorpher3D は挑戦的な運転データセットに対して、最先端の拡散ベースエンハンサーとどの程度性能が同等以上か？

主な発見

ViewMorpher3D は、外挿時および希薄設定で RGB のみのエンハンサー（DiFix3D+ および 3DGS-Enhancer など）よりも知覚的・構造的品質が高い。
モデルは複数の参照視点から利益を受け、参照視点数が増えるほど品質が向上する。
並べ替え不変な統合と全3D 自己注意により、マルチビュー特徴間のクロスビューおよび時間的一貫性が向上する。
C-マップとPlücker 埋め込みによる幾何学的条件付けは、幻視を減らし難しい視点でのシーン幾何を維持する。
潜在空間監視と選択的ピクセル空間損失の組み合わせにより、メモリコストを抑えつつ複数ターゲットの拡張をスケーラブルに行える。
EUVS、Para-Lane、nuScenes の評価全体で、ViewMorpher3D は Baselines と比較して PSNR、SSIM、LPIPS 指標で顕著な改善を示す。

Figure 2 : Overview illustration of ViewMorpher3D. The rendered novel-view images are enhanced via a multi-view diffusion model, conditioned on reference views, camera poses and 3D priors.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。