Skip to main content
QUICK REVIEW

[논문 리뷰] Enhancing Novel View Synthesis via Geometry Grounded Set Diffusion

Farhad Ghazvinian Zanjani, Hong Cai|arXiv (Cornell University)|2026. 01. 12.
Advanced Vision and Imaging인용 수 0
한 줄 요약

ViewMorpher3D는 3D 기하학적 선행 정보, 카메라 포즈, 다중 시점 참조를 조건으로 삼는 확산 기반 복원을 통해 다중 뷰 신규 시점 합성(NVS)의 교차 시점 및 시간적 일관성을 3D Gaussian Splatting 장면에서 향상시킵니다.

ABSTRACT

We present SetDiff, a geometry-grounded multi-view diffusion framework that enhances novel-view renderings produced by 3D Gaussian Splatting. Our method integrates explicit 3D priors, pixel-aligned coordinate maps and pose-aware Plucker ray embeddings, into a set-based diffusion model capable of jointly processing variable numbers of reference and target views. This formulation enables robust occlusion handling, reduces hallucinations under low-signal conditions, and improves photometric fidelity in visual content restoration. A unified set mixer performs global token-level attention across all input views, supporting scalable multi-camera enhancement while maintaining computational efficiency through latent-space supervision and selective decoding. Extensive experiments on EUVS, Para-Lane, nuScenes, and DL3DV demonstrate significant gains in perceptual fidelity, structural similarity, and robustness under severe extrapolation. SetDiff establishes a state-of-the-art diffusion-based solution for realistic and reliable novel-view synthesis in autonomous driving scenarios.

연구 동기 및 목표

  • 희박한 관측치와 넓은 베이스라인에서 자율주행의 강건한 다중 뷰 신규 시점 합성(NVS)의 필요성을 동기화한다.
  • 다양한 카메라 수와 시간 차수에 확장 가능한 기하학 인식의 확산 기반 향상기를 개발한다.
  • RGB 렌더링을 넘어 기하학적 조건 신호를 도입하여 구조적 충실도와 다중 뷰 일관성을 향상시킨다.
  • 효율성과 교차 뷰 결합 간의 균형을 맞추기 위해 선택적 픽셀 공간 감독을 포함한 잠재 공간 감독을 가능하게 한다.
  • 도전적인 주행 데이터세트 전반에서 최첨단 기준선 대비 향상된 이미지 품질과 기하학적 개연성을 보여준다.

제안 방법

  • 가변 기수의 참조 뷰 및 대상 뷰를 함께 처리하는 기하학 기반 확산 향상기(ViewMorpher3D)를 도입한다.
  • 확산 디노이저를 RGB 입력뿐만 아니라 기하 신호(C-맵)와 포즈 임베딩(Plücker 광선 필드)에 조건화한다.
  • 학습된 인코더 Psi가 C-맵, Plücker 임베딩, 뷰 마스크를 융합하도록 조건화된 2D UNet를 갖춘 잠재 공간 확산 프레임워크(SD-Turbo)를 사용한다.
  • 복원 중 교차 뷰 공간 일관성을 강제하기 위해 모든 뷰에 걸친 3D 전체 주의(Self-attention)를 적용한다.
  • 메모리 관리를 위해 모든 타깃에 대한 잠재 공간 감독과 선택적 픽셀 공간 감독을 채택하여 교차 뷰 일관성을 유지한다.
  • 도메인 차이를 연결하고 재구성 충실도를 높이기 위해 LoRA를 사용하여 VAE 디코더를 미세조정한다.
Figure 1 : ViewMorpher3D improves rendered novel views via multi-view diffusion, conditioned on camera images, poses, and the scene’s 3D structure.
Figure 1 : ViewMorpher3D improves rendered novel views via multi-view diffusion, conditioned on camera images, poses, and the scene’s 3D structure.

실험 결과

연구 질문

  • RQ1확산 기반 향상기가 3D Gaussian Splatting 장면에서 기하학 인식 조건화를 활용하여 다중 뷰 NVS를 향상시킬 수 있는가?
  • RQ2다중 뷰(와 시간) 조건화가 향상된 뷰의 교차 뷰 일관성과 시간적 일관성에 어떤 영향을 미치는가?
  • RQ3참조 뷰와 대상 뷰의 수를 다르게 하는 것이 향상 품질에 어떤 영향을 미치는가?
  • RQ4기하 기반 조건화가 RGB-전용 확산 향상기와 비교하여 외삽된 주행 시나리오에서 노이즈, 환각을 감소시키는가?
  • RQ5도 challenging 주행 데이터셋에서 ViewMorpher3D가 최첨단 확산 기반 향상기와 비교해 어떤 성능을 보이는가?

주요 결과

  • ViewMorpher3D는 외삽되고 희박한 설정에서 DiFix3D+ 및 3DGS-Enhancer와 같은 RGB-전용 향상기보다 지각적 및 구조적 품질이 더 우수하다.
  • 모델은 다중 참조 뷰에서 이점을 얻으며, 참조 뷰의 수가 늘어날수록 품질이 향상된다.
  • 다중 뷰 특징에 대한 순열 불변 융합과 전체 3D 자기 주의로 교차 뷰 및 시간적 일관성이 향상된다.
  • C-맵과 Plücker 임베딩의 기하 조건화가 도전적인 시점에서 환각을 줄이고 장면 기하를 보존한다.
  • 선택적 픽셀 공간 손실이 포함된 잠재 공간 감독은 과도한 메모리 비용 없이 확장 가능한 다타깃 향상을 가능하게 한다.
  • EUVS, Para-Lane, 및 nuScenes 평가에서 ViewMorpher3D는 기준선에 비해 PSNR, SSIM, LPIPS 지표에서 큰 향상을 보인다.
Figure 2 : Overview illustration of ViewMorpher3D. The rendered novel-view images are enhanced via a multi-view diffusion model, conditioned on reference views, camera poses and 3D priors.
Figure 2 : Overview illustration of ViewMorpher3D. The rendered novel-view images are enhanced via a multi-view diffusion model, conditioned on reference views, camera poses and 3D priors.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.