QUICK REVIEW

[논문 리뷰] StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

Chi Zhang, Yiwen Chen|arXiv (Cornell University)|2023. 05. 30.

Generative Adversarial Networks and Image Synthesis인용 수 13

한 줄 요약

본 논문은 StyleAvatar3D를 제시합니다. 프리트레인된 이미지-텍스트 확산 모델을 활용하여 포즈로 안내되는 교정된 다중 시야 이미지에서 학습된 GAN 기반 3D 생성기를 통해 고충실도이고 스타일리시한 3D 아바타를 생성하며, 거친-세밀 판별기와 이미지 조건 3D 생성을 위한 잠재 확산 모델을 포함하는 프레임워크입니다.

ABSTRACT

The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.

연구 동기 및 목표

이미지-텍스트 확산 프리어를 활용하여 3D 학습을 위한 다양하고 스타일리시한 다중 시야 아바타 데이터를 생성한다.
포즈 정보를 가이드로 사용하여 보정된 2D 이미지를 이용해 3D GAN(EG3D 기반)을 학습한다.
이미지-포즈 불일치를 해결하기 위해 거친-정밀 포즈 인식 판별기를 사용한다.
StyleGAN의 스타일 공간에서 잠재 확산 모델을 통해 이미지 조건의 3D 생성을 가능하게 한다.

제안 방법

기존 엔진에서 추출된 사전 정의된 포즈에 의해 Guide되는 ControlNet으로 다중 시야 학습 이미지를 생성한다.
시야별 프롬프트와 속성 프롬프트를 포함시켜 시야 커버리지와 아바타 다양성을 향상시킨다.
포즈-이미지 불일치를 다루기 위해 정밀 포즈 라벨과 거친 포즈 라벨이 쌍으로 제공되는 거친-세밀 판별기를 도입한다.
StyleGAN의 W-공간에서 잠재 확산 모델을 개발하여 입력 이미지에 조건부로 3D 생성을 수행하고 조건부 생성을 위한 스타일 매핑 네트워크를 대체한다.
보정된 2D 뷰로 3D GAN(EG3D 기반)을 학습한 뒤, 이미지 조건 3D 합성을 위해 매핑을 확산 모델로 대체하는 것을 선택적으로 수행한다.

실험 결과

연구 질문

RQ1사전 학습된 이미지-텍스트 확산 모델이 보정된 2D 뷰로 학습될 때 다양하고 고충실도인 3D 아바타를 생성할 수 있는 충분한 priors를 제공하는가?
RQ2거친-정밀 포즈 인식 판별기가 포즈-이미지 불일치 하에서 3D 일관성 및 품질을 향상시키는가?
RQ3StyleGAN의 잠재 공간에서의 잠재 확산이 명시적 포즈 추정 없이도 신뢰할 수한 이미지 조건의 3D 아바타 생성을 가능하게 하는가?
RQ4제안된 방법이 시각적 품질과 다양성 측면에서 최첨단 3D 아바타 생성 방법과 비교하여 어떻게 다른가?

주요 결과

거친-세밀 판별기가 기준선 및 포즈 예측 판별기보다 현저히 우수한 성능을 보인다(FID가 더 낮음).
본 방법은 평가된 데이터셋에서 기존 최첨단 방법들에 비해 시각적 품질과 다양성이 우수하다.
시야별 프롬프트와 속성 프롬프트가 생성 정확도와 다양성을 향상시키며 하이브리드 가이던스가 견고한 결과를 제공한다.
StyleGAN 스타일 공간에서의 잠재 확산은 명시적 포즈 추정 없이도 효과적인 이미지 조건 3D 아바타 생성을 가능하게 한다.
시각화 결과는 현실적인 기하학과 스타일 주도 변형이 출력 간에 나타나는 메시를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.