QUICK REVIEW

[논문 리뷰] Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model

Ruoxi Shi, Hansheng Chen|arXiv (Cornell University)|2023. 10. 23.

Generative Adversarial Networks and Image Synthesis인용 수 34

한 줄 요약

Zero123++는 단일 입력 뷰에서 일관된 다중 시야 이미지를 생성하도록 Stable Diffusion 베이스를 미세 조정하며, 고급 컨디셔닝(로컬/글로벌)과 타일링 다중 뷰 레이아웃을 활용하여 결합 분포를 모델링한다. 또한 깊이 조건을 갖춘 ControlNet 변형을 시연한다.

ABSTRACT

We report Zero123++, an image-conditioned diffusion model for generating 3D-consistent multi-view images from a single input view. To take full advantage of pretrained 2D generative priors, we develop various conditioning and training schemes to minimize the effort of finetuning from off-the-shelf image diffusion models such as Stable Diffusion. Zero123++ excels in producing high-quality, consistent multi-view images from a single image, overcoming common issues like texture degradation and geometric misalignment. Furthermore, we showcase the feasibility of training a ControlNet on Zero123++ for enhanced control over the generation process. The code is available at https://github.com/SUDO-AI-3D/zero123plus.

연구 동기 및 목표

단일 이미지로부터 3D-일관된 다중 뷰 생성을 위한 필요성 제시
사전학습된 2D 프라이어를 최소한의 미세 조정으로 재활용하는 다중 뷰 확산 베이스 모델 개발
학습 전략 및 컨디셔닝 메커니즘을 통해 뷰 간 일관성 향상
전역 컨디셔닝을 활용해 보이지 않는 영역의 의미를 보존
ControlNet을 이용한 깊이 제어 생성 같은 확장을 시연

제안 방법

여섯 뷰를 하나의 3x2 프레임으로 타일링하여 공동 다중 뷰 분포를 모델링
방향성 모호성을 피하기 위해 절대 고도와 상대 방위각 포즈를 사용
다중 뷰 생성에서 더 나은 글로벌 일관성을 위해 선형 노이즈 스케줄로 전환
입력 이미지로부터 적절한 로컬 컨디셔닝을 제공하기 위해 스케일된 Reference Attention 도입
CLIP 임베딩에서 전역 이미지 의미를 전달하기 위해 FlexDiffuse 스타일의 학습 가능한 글로벌 컨디셔닝 적용
Stable Diffusion v-model에서 시작하는 단계적 파이프라인 미세조정, 점진적 언프리징 및 효율을 위한 Min-SNR 가중치 적용

실험 결과

연구 질문

RQ1단일 입력 이미지로 고정된 뷰 레이아웃에서 일관되게 정렬된 다중 뷰 이미지를 생성할 수 있는가?
RQ2로컬 및 글로벌 컨디셔닝을 어떻게 설계하면 사전학습된 Stable Diffusion 프라이어를 3D-일관된 출력에 최대한 재활용할 수 있는가?
RQ3확산 노이즈 스케줄을 바꾸는 것이 다중 뷰 생성에서 글로벌 일관성을 로컬 디테일보다 향상시키는가?
RQ4로컬 레퍼런스 어텐션과 글로벌 컨디셔닝이 보이지 않는 영역을 일관되게 생성하는 데 어떤 영향을 미치는가?
RQ5ControlNet을 통한 깊이 제어가 기하학적으로 일관된 다중 뷰 출력의 개선에 추가적인 도움이 되는가?

주요 결과

모델	LPIPS ↓
Zero-1-to-3	0.210 ± 0.059
Zero-1-to-3 XL	0.188 ± 0.053
Zero123++ (Ours)	0.177 ± 0.066

Zero123++가 비교 방법들 중 검증 세트에서 최상의 LPIPS 점수를 달성하여 다중 뷰 일관성과 이미지 품질이 더 높음을 나타낸다.
정성적 결과는 실제 사진, AI 생성 이미지, 2D 일러스트레이션에 걸쳐 높은 품질의 일관된 다중 뷰 이미지를 보여준다.
스케일된 Reference Attention으로 로컬 컨디셔닝과 학습 가능한 FlexDiffuse 스타일 가이던스를 통한 글로벌 컨디셔닝이 보이지 않는 영역의 일관성 향상에 크게 기여한다.
ControlNet이 적용된 깊이 제어 Zero123++는 검증 세트에서 더 낮은 LPIPS(0.086)를 달성하여 기하 제어가 향상되었음을 보여준다.
모델은 최소한의 미세 조정으로 3D-일관된 다중 뷰 생성을 달성하면서 Stable Diffusion의 프라이어를 보존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.