Skip to main content
QUICK REVIEW

[논문 리뷰] StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

Chi Zhang, Yiwen Chen|arXiv (Cornell University)|2023. 05. 30.
Generative Adversarial Networks and Image Synthesis인용 수 13
한 줄 요약

본 논문은 StyleAvatar3D를 제시합니다. 프리트레인된 이미지-텍스트 확산 모델을 활용하여 포즈로 안내되는 교정된 다중 시야 이미지에서 학습된 GAN 기반 3D 생성기를 통해 고충실도이고 스타일리시한 3D 아바타를 생성하며, 거친-세밀 판별기와 이미지 조건 3D 생성을 위한 잠재 확산 모델을 포함하는 프레임워크입니다.

ABSTRACT

The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.

연구 동기 및 목표

  • 이미지-텍스트 확산 프리어를 활용하여 3D 학습을 위한 다양하고 스타일리시한 다중 시야 아바타 데이터를 생성한다.
  • 포즈 정보를 가이드로 사용하여 보정된 2D 이미지를 이용해 3D GAN(EG3D 기반)을 학습한다.
  • 이미지-포즈 불일치를 해결하기 위해 거친-정밀 포즈 인식 판별기를 사용한다.
  • StyleGAN의 스타일 공간에서 잠재 확산 모델을 통해 이미지 조건의 3D 생성을 가능하게 한다.

제안 방법

  • 기존 엔진에서 추출된 사전 정의된 포즈에 의해 Guide되는 ControlNet으로 다중 시야 학습 이미지를 생성한다.
  • 시야별 프롬프트와 속성 프롬프트를 포함시켜 시야 커버리지와 아바타 다양성을 향상시킨다.
  • 포즈-이미지 불일치를 다루기 위해 정밀 포즈 라벨과 거친 포즈 라벨이 쌍으로 제공되는 거친-세밀 판별기를 도입한다.
  • StyleGAN의 W-공간에서 잠재 확산 모델을 개발하여 입력 이미지에 조건부로 3D 생성을 수행하고 조건부 생성을 위한 스타일 매핑 네트워크를 대체한다.
  • 보정된 2D 뷰로 3D GAN(EG3D 기반)을 학습한 뒤, 이미지 조건 3D 합성을 위해 매핑을 확산 모델로 대체하는 것을 선택적으로 수행한다.

실험 결과

연구 질문

  • RQ1사전 학습된 이미지-텍스트 확산 모델이 보정된 2D 뷰로 학습될 때 다양하고 고충실도인 3D 아바타를 생성할 수 있는 충분한 priors를 제공하는가?
  • RQ2거친-정밀 포즈 인식 판별기가 포즈-이미지 불일치 하에서 3D 일관성 및 품질을 향상시키는가?
  • RQ3StyleGAN의 잠재 공간에서의 잠재 확산이 명시적 포즈 추정 없이도 신뢰할 수한 이미지 조건의 3D 아바타 생성을 가능하게 하는가?
  • RQ4제안된 방법이 시각적 품질과 다양성 측면에서 최첨단 3D 아바타 생성 방법과 비교하여 어떻게 다른가?

주요 결과

  • 거친-세밀 판별기가 기준선 및 포즈 예측 판별기보다 현저히 우수한 성능을 보인다(FID가 더 낮음).
  • 본 방법은 평가된 데이터셋에서 기존 최첨단 방법들에 비해 시각적 품질과 다양성이 우수하다.
  • 시야별 프롬프트와 속성 프롬프트가 생성 정확도와 다양성을 향상시키며 하이브리드 가이던스가 견고한 결과를 제공한다.
  • StyleGAN 스타일 공간에서의 잠재 확산은 명시적 포즈 추정 없이도 효과적인 이미지 조건 3D 아바타 생성을 가능하게 한다.
  • 시각화 결과는 현실적인 기하학과 스타일 주도 변형이 출력 간에 나타나는 메시를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.