[論文レビュー] StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
本論文は StyleAvatar3D を提案します。これは、プレ-trained image-text diffusion models を用いて、 calibrationされたマルチビュー画像に guided by poses、GANベースの3Dジェネレーターを訓練して高忠実度でスタイライズドな3Dアバターを生成する framework です。 coarse-to-fine discriminator と latent diffusion model を用いて image-conditioned 3D generation を実現します。
The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.
研究の動機と目的
- image-text diffusion priors を活用して、3D 学習のための多様でスタイライズドなマルチビューアバターデータを生成する。
- calibrated 2D 画像を pose 情報に guided して、EG3Dベースの3D GAN を訓練する。
- image-pose のずれを coarse-to-fine の pose-aware discriminator で解決する。
- StyleGAN のスタイル空間で latent diffusion model を用い、条件付き生成として画像を使った 3D 生成を実現する。
提案手法
- ControlNet guided by predefined poses extracted from existing engines を用いてマルチビュー訓練画像を生成する。
- view-specific prompts と attribute prompts を取り入れて、ビューカバレッジとアバターの多様性を改善する。
- paired fine and coarse pose labels を用いる coarse-to-fine discriminator を導入し、ポーズ-画像ずれに対処する。
- StyleGAN の W-space で latent diffusion model を開発し、スタイルマッピングネットワークを条件付き生成の代わりに使って 3D 生成を画像 conditioned にする。
- calibrated 2D 視点を用いて 3D GAN (EG3D-based) を訓練し、その後必要に応じてマッピングを拡散モデルに置換して image-conditioned 3D 合成を行う。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの image-text diffusion models は、calibrated 2D 視点で訓練されたときに、多様で高忠実な3Dアバターを生成する priors を提供できるか。
- RQ2coarse-to-fine 応用ポーズ認識 discriminator は、ポーズ-画像ずれの下で 3D の一貫性と品質を改善するか。
- RQ3StyleGAN の潜在空間での latent diffusion は、explicitなポーズ推定なしに信頼性のある画像条件付き3Dアバター生成を可能にするか。
- RQ4提案手法は、視覚的品質と多様性の点で最先端の3Dアバター生成手法と比較してどうか。
主な発見
| Model | FID |
|---|---|
| EG3D | 7.8 |
| PoF3D | 20.9 |
| CoF (Ours) | 5.6 |
- coarse-to-fine discriminator は baseline および pose-predicting discriminator を大幅に上回る(FIDが低い)。
- 本手法は評価データセットで現行の最先端手法よりも視覚品質と多様性が優れている。
- ビュー別の prompts と属性 prompts は生成の正確さと多様性を向上させ、ハイブリッドガイダンスは頑健な結果をもたらす。
- StyleGAN のスタイル空間での latent diffusion は explicitな pose 推定なしに有効な image-conditioned 3D アバター生成を可能にする。
- ビジュアル化は現実的なジオメトリとスタイル駆動のバリエーションを持つメッシュを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。