QUICK REVIEW

[논문 리뷰] Enhancing Novel View Synthesis via Geometry Grounded Set Diffusion

Farhad Ghazvinian Zanjani, Hong Cai|arXiv (Cornell University)|2026. 01. 12.

Advanced Vision and Imaging인용 수 0

한 줄 요약

ViewMorpher3D는 3D 기하학적 선행 정보, 카메라 포즈, 다중 시점 참조를 조건으로 삼는 확산 기반 복원을 통해 다중 뷰 신규 시점 합성(NVS)의 교차 시점 및 시간적 일관성을 3D Gaussian Splatting 장면에서 향상시킵니다.

ABSTRACT

We present SetDiff, a geometry-grounded multi-view diffusion framework that enhances novel-view renderings produced by 3D Gaussian Splatting. Our method integrates explicit 3D priors, pixel-aligned coordinate maps and pose-aware Plucker ray embeddings, into a set-based diffusion model capable of jointly processing variable numbers of reference and target views. This formulation enables robust occlusion handling, reduces hallucinations under low-signal conditions, and improves photometric fidelity in visual content restoration. A unified set mixer performs global token-level attention across all input views, supporting scalable multi-camera enhancement while maintaining computational efficiency through latent-space supervision and selective decoding. Extensive experiments on EUVS, Para-Lane, nuScenes, and DL3DV demonstrate significant gains in perceptual fidelity, structural similarity, and robustness under severe extrapolation. SetDiff establishes a state-of-the-art diffusion-based solution for realistic and reliable novel-view synthesis in autonomous driving scenarios.

연구 동기 및 목표

희박한 관측치와 넓은 베이스라인에서 자율주행의 강건한 다중 뷰 신규 시점 합성(NVS)의 필요성을 동기화한다.
다양한 카메라 수와 시간 차수에 확장 가능한 기하학 인식의 확산 기반 향상기를 개발한다.
RGB 렌더링을 넘어 기하학적 조건 신호를 도입하여 구조적 충실도와 다중 뷰 일관성을 향상시킨다.
효율성과 교차 뷰 결합 간의 균형을 맞추기 위해 선택적 픽셀 공간 감독을 포함한 잠재 공간 감독을 가능하게 한다.
도전적인 주행 데이터세트 전반에서 최첨단 기준선 대비 향상된 이미지 품질과 기하학적 개연성을 보여준다.

제안 방법

가변 기수의 참조 뷰 및 대상 뷰를 함께 처리하는 기하학 기반 확산 향상기(ViewMorpher3D)를 도입한다.
확산 디노이저를 RGB 입력뿐만 아니라 기하 신호(C-맵)와 포즈 임베딩(Plücker 광선 필드)에 조건화한다.
학습된 인코더 Psi가 C-맵, Plücker 임베딩, 뷰 마스크를 융합하도록 조건화된 2D UNet를 갖춘 잠재 공간 확산 프레임워크(SD-Turbo)를 사용한다.
복원 중 교차 뷰 공간 일관성을 강제하기 위해 모든 뷰에 걸친 3D 전체 주의(Self-attention)를 적용한다.
메모리 관리를 위해 모든 타깃에 대한 잠재 공간 감독과 선택적 픽셀 공간 감독을 채택하여 교차 뷰 일관성을 유지한다.
도메인 차이를 연결하고 재구성 충실도를 높이기 위해 LoRA를 사용하여 VAE 디코더를 미세조정한다.

Figure 1 : ViewMorpher3D improves rendered novel views via multi-view diffusion, conditioned on camera images, poses, and the scene’s 3D structure.

실험 결과

연구 질문

RQ1확산 기반 향상기가 3D Gaussian Splatting 장면에서 기하학 인식 조건화를 활용하여 다중 뷰 NVS를 향상시킬 수 있는가?
RQ2다중 뷰(와 시간) 조건화가 향상된 뷰의 교차 뷰 일관성과 시간적 일관성에 어떤 영향을 미치는가?
RQ3참조 뷰와 대상 뷰의 수를 다르게 하는 것이 향상 품질에 어떤 영향을 미치는가?
RQ4기하 기반 조건화가 RGB-전용 확산 향상기와 비교하여 외삽된 주행 시나리오에서 노이즈, 환각을 감소시키는가?
RQ5도 challenging 주행 데이터셋에서 ViewMorpher3D가 최첨단 확산 기반 향상기와 비교해 어떤 성능을 보이는가?

주요 결과

ViewMorpher3D는 외삽되고 희박한 설정에서 DiFix3D+ 및 3DGS-Enhancer와 같은 RGB-전용 향상기보다 지각적 및 구조적 품질이 더 우수하다.
모델은 다중 참조 뷰에서 이점을 얻으며, 참조 뷰의 수가 늘어날수록 품질이 향상된다.
다중 뷰 특징에 대한 순열 불변 융합과 전체 3D 자기 주의로 교차 뷰 및 시간적 일관성이 향상된다.
C-맵과 Plücker 임베딩의 기하 조건화가 도전적인 시점에서 환각을 줄이고 장면 기하를 보존한다.
선택적 픽셀 공간 손실이 포함된 잠재 공간 감독은 과도한 메모리 비용 없이 확장 가능한 다타깃 향상을 가능하게 한다.
EUVS, Para-Lane, 및 nuScenes 평가에서 ViewMorpher3D는 기준선에 비해 PSNR, SSIM, LPIPS 지표에서 큰 향상을 보인다.

Figure 2 : Overview illustration of ViewMorpher3D. The rendered novel-view images are enhanced via a multi-view diffusion model, conditioned on reference views, camera poses and 3D priors.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.