Skip to main content
QUICK REVIEW

[논문 리뷰] Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model

Ruoxi Shi, Hansheng Chen|arXiv (Cornell University)|2023. 10. 23.
Generative Adversarial Networks and Image Synthesis인용 수 34
한 줄 요약

Zero123++는 단일 입력 뷰에서 일관된 다중 시야 이미지를 생성하도록 Stable Diffusion 베이스를 미세 조정하며, 고급 컨디셔닝(로컬/글로벌)과 타일링 다중 뷰 레이아웃을 활용하여 결합 분포를 모델링한다. 또한 깊이 조건을 갖춘 ControlNet 변형을 시연한다.

ABSTRACT

We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process. The code is available at https://github.com/SUDO-AI-3D/zero123plus.

연구 동기 및 목표

  • 단일 이미지로부터 3D-일관된 다중 뷰 생성을 위한 필요성 제시
  • 사전학습된 2D 프라이어를 최소한의 미세 조정으로 재활용하는 다중 뷰 확산 베이스 모델 개발
  • 학습 전략 및 컨디셔닝 메커니즘을 통해 뷰 간 일관성 향상
  • 전역 컨디셔닝을 활용해 보이지 않는 영역의 의미를 보존
  • ControlNet을 이용한 깊이 제어 생성 같은 확장을 시연

제안 방법

  • 여섯 뷰를 하나의 3x2 프레임으로 타일링하여 공동 다중 뷰 분포를 모델링
  • 방향성 모호성을 피하기 위해 절대 고도와 상대 방위각 포즈를 사용
  • 다중 뷰 생성에서 더 나은 글로벌 일관성을 위해 선형 노이즈 스케줄로 전환
  • 입력 이미지로부터 적절한 로컬 컨디셔닝을 제공하기 위해 스케일된 Reference Attention 도입
  • CLIP 임베딩에서 전역 이미지 의미를 전달하기 위해 FlexDiffuse 스타일의 학습 가능한 글로벌 컨디셔닝 적용
  • Stable Diffusion v-model에서 시작하는 단계적 파이프라인 미세조정, 점진적 언프리징 및 효율을 위한 Min-SNR 가중치 적용

실험 결과

연구 질문

  • RQ1단일 입력 이미지로 고정된 뷰 레이아웃에서 일관되게 정렬된 다중 뷰 이미지를 생성할 수 있는가?
  • RQ2로컬 및 글로벌 컨디셔닝을 어떻게 설계하면 사전학습된 Stable Diffusion 프라이어를 3D-일관된 출력에 최대한 재활용할 수 있는가?
  • RQ3확산 노이즈 스케줄을 바꾸는 것이 다중 뷰 생성에서 글로벌 일관성을 로컬 디테일보다 향상시키는가?
  • RQ4로컬 레퍼런스 어텐션과 글로벌 컨디셔닝이 보이지 않는 영역을 일관되게 생성하는 데 어떤 영향을 미치는가?
  • RQ5ControlNet을 통한 깊이 제어가 기하학적으로 일관된 다중 뷰 출력의 개선에 추가적인 도움이 되는가?

주요 결과

모델LPIPS ↓
Zero-1-to-30.210 ± 0.059
Zero-1-to-3 XL0.188 ± 0.053
Zero123++ (Ours)0.177 ± 0.066
  • Zero123++가 비교 방법들 중 검증 세트에서 최상의 LPIPS 점수를 달성하여 다중 뷰 일관성과 이미지 품질이 더 높음을 나타낸다.
  • 정성적 결과는 실제 사진, AI 생성 이미지, 2D 일러스트레이션에 걸쳐 높은 품질의 일관된 다중 뷰 이미지를 보여준다.
  • 스케일된 Reference Attention으로 로컬 컨디셔닝과 학습 가능한 FlexDiffuse 스타일 가이던스를 통한 글로벌 컨디셔닝이 보이지 않는 영역의 일관성 향상에 크게 기여한다.
  • ControlNet이 적용된 깊이 제어 Zero123++는 검증 세트에서 더 낮은 LPIPS(0.086)를 달성하여 기하 제어가 향상되었음을 보여준다.
  • 모델은 최소한의 미세 조정으로 3D-일관된 다중 뷰 생성을 달성하면서 Stable Diffusion의 프라이어를 보존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.