Skip to main content
QUICK REVIEW

[논문 리뷰] Novel View Synthesis with Diffusion Models

Daniel Watson, William Chan|arXiv (Cornell University)|2022. 10. 06.
Advanced Vision and Imaging인용 수 63
한 줄 요약

3DiM은 테스트 시간 최적화 없이 확률적 조건화와 공유 X-UNet 아키텍처를 사용하여 단일 이미지에서 다중 3D-일관된 새로운 시점을 합성하는 기하학적 자유(diffusion) 모델이다.

ABSTRACT

We present 3DiM, a diffusion model for 3D novel view synthesis, which is able to translate a single input view into consistent and sharp completions across many views. The core component of 3DiM is a pose-conditional image-to-image diffusion model, which takes a source view and its pose as inputs, and generates a novel view for a target pose as output. 3DiM can generate multiple views that are 3D consistent using a novel technique called stochastic conditioning. The output views are generated autoregressively, and during the generation of each novel view, one selects a random conditioning view from the set of available views at each denoising step. We demonstrate that stochastic conditioning significantly improves the 3D consistency of a naive sampler for an image-to-image diffusion model, which involves conditioning on a single fixed view. We compare 3DiM to prior work on the SRN ShapeNet dataset, demonstrating that 3DiM's generated completions from a single view achieve much higher fidelity, while being approximately 3D consistent. We also introduce a new evaluation methodology, 3D consistency scoring, to measure the 3D consistency of a generated object by training a neural field on the model's output views. 3DiM is geometry free, does not rely on hyper-networks or test-time optimization for novel view synthesis, and allows a single model to easily scale to a large number of scenes.

연구 동기 및 목표

  • 적은 입력 뷰만 사용할 수 있을 때 새로운 시점 합성을 동기 부여하고 보이지 않는 시점을 생성하는 모호성을 강조한다.
  • 단일 또는 소수의 입력 뷰로부터 다중 3D-일관 시점을 생성할 수 있는 기하학적 자유의 엔드-투-엔드 확산 모델을 개발한다.
  • 명시적 3D 표현이나 테스트 시간 최적화에 의존하지 않고 3D 일관성을 촉진하는 메커니즘을 도입한다.
  • 생성된 시점들에 대한 신경 필드 학습을 통해 3D 일관성을 정량화하는 기하학적 자유 뷰 합성에 대한 새로운 평가 체계를 제공한다.

제안 방법

  • 소스 뷰와 그 자세에 조건화된 타깃 뷰를 생성하도록 학습하는 자세 조건부 이미지-투-이미지 확산 모델인 3DiM를 제안한다.
  • 각 디노이징 스텝에서 조건 뷰를 무작위로 선택하여 자기회귀적으로 다중 뷰를 생성하는 확률적 조건화를 도입하고, 3D 일관성을 촉진한다.
  • 입력 프레임 간 가중치 공유와 조건화 뷰와 타깃 뷰를 융합하기 위한 교차 어텐션을 갖춘 기하학 인지형 UNet 변형인 X-UNet을 개발한다.
  • 명시적 3D 표현이나 테스트 시간 최적화를 요구하지 않고 동일한 씬의 두 시점 뷰 쌍으로 학습한다.
  • ShapeNet 기반 SRN 작업에서 기존 기하학 인지형 및 기하학 자유 방법과 비교하고 표준 지표(PSNR, SSIM, FID)와 새롭게 제안된 3D 일관성 평가를 사용한다.

실험 결과

연구 질문

  • RQ1제한된 입력 뷰 세트에서 확산 모델을 어떻게 적응시켜 새로운 시점 합성을 수행할 수 있는가?
  • RQ2기하학 자유 확산 모델이 씬별 최적화나 명시적 3D 표현 없이도 다중 3D-일관 시점을 생성할 수 있는가?
  • RQ3어떤 아키텍처 선택과 샘플링 전략(예: 확률적 조건화)이 생성된 시점의 3D 일관성과 시각적 충실도를 향상시키는가?
  • RQ4전통적인 이미지 품질 지표를 넘어 기하학 자유 뷰 합성의 3D 일관성은 어떻게 평가해야 하는가?

주요 결과

  • 3DiM은 단일 입력 뷰로부터 선명하고 그럴듯한 새로운 시점을 생성하며 이전 방법에 비해 대략적인 3D-일관 결과를 달성한다.
  • 확률적 조건화는 확산 기반 샘플링에서 단순하고 고정된 뷰 조건화에 비해 3D 일관성을 현저하게 향상시킨다.
  • 가중치 공유 및 교차 어텐션을 갖춘 X-UNet 아키텍처가 3D 일관성과 조건 뷰에의 정합성에서 Concat-UNet을 능가한다.
  • 표준 지표(PSNR, SSIM)는 기하학 자유 모델의 샘플 품질을 완전히 반영하지 못할 수 있으며, FID와 제안된 3D 일관성 평가가 모델 성능을 더 신뢰성 있게 포착한다.
  • 모델 출력에 신경장 필드를 학습시키는 기반의 전용 3D 일관성 점수 매기기 방식은 불일치 출력을 가중처벌하고 정성적 평가와 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.