QUICK REVIEW

[論文レビュー] DreamHuman: Animatable 3D Avatars from Text

Nikos Kolotouros, Thiemo Alldieck|arXiv (Cornell University)|Jun 15, 2023

Human Pose and Action Recognition被引用数 22

ひとこと要約

DreamHuman は NeRFとimGHUMのボディプリオリとポーズ条件付き変形を統合することで、テキスト説明からフォトリアリスティックでアニメーション可能な3D人間アバターを生成します。従来のテキストから3Dへの手法と比較して、幾何学とテクスチャの忠実度が上回り、追加の学習なしにダイナミックなポージングを実現します。

ABSTRACT

We present DreamHuman, a method to generate realistic animatable 3D human avatar models solely from textual descriptions. Recent text-to-3D methods have made considerable strides in generation, but are still lacking in important aspects. Control and often spatial resolution remain limited, existing methods produce fixed rather than animated 3D human models, and anthropometric consistency for complex structures like people remains a challenge. DreamHuman connects large text-to-image synthesis models, neural radiance fields, and statistical human body models in a novel modeling and optimization framework. This makes it possible to generate dynamic 3D human avatars with high-quality textures and learned, instance-specific, surface deformations. We demonstrate that our method is capable to generate a wide variety of animatable, realistic 3D human models from text. Our 3D models have diverse appearance, clothing, skin tones and body shapes, and significantly outperform both generic text-to-3D approaches and previous text-based 3D avatar generators in visual fidelity. For more results and animations please check our website at https://dream-human.github.io.

研究の動機と目的

テキスト説明から制御可能で高忠実度の3D人間アバターが必要であることを動機付ける。
監視付きのテキスト-to-3Dデータなしでアニメーション可能なアバターを生成する方法を開発する。
3D人間ボディプリオリを組み込み、人体計測の一貫性とポーズの変形性を保証する。
セマンティックズームとポーズ条件付き変形を通じて、テクスチャとジオメトリの詳細を向上させる。

提案手法

3Dシーン表現としてNeRFを用い、xをカラーと密度に写像するMLPを用いる。
3D点をimGHUMセマンティック空間（距離 d と表面コード s）にエンコードし、この空間でNeRFを学習する。
NeRFをポーズ θと形状 βで条件付けして、衣服のポーズ依存変形をモデル化する。
密度はNeRF密度とimGHUMベースの密度代理の最大値で正則化して、手足や細部を保持する。
テキスト駆動の最適化のために、Score Distillation Samplingによる拡散モデルガイダンスを用いる。
ディテールを高めるために、レンダリングの注意を6つの体の領域に集中させてセマンティックズームを実装する。

実験結果

リサーチクエスチョン

RQ1テキスト記述だけで、ペアになったテキスト-3Dデータなしにフォトリアリスティックでアニメーション可能な3D人間アバターを得ることができるか？
RQ2NeRFベースの表現に統計的なボディプリオリ（imGHUM）を組み込むと、ポーズをまたいだ人体計測精度が改善されるか？
RQ3ポーズ条件付きの非剛性衣服変形は、静的または剛性変形モデルよりリアリズムを向上させるか？
RQ4セマンティックズームは体の領域全体の提升テクスチャとジオメトリの品質を向上させるのに有効か？
RQ5DreamHumanは視覚的忠実度とポーズの柔軟性の点で、最先端のテキスト-to-3D 手法とどのように比較されるか？

主な発見

手法	R-Precision	Top-3	Top-5
DreamFusion	0.775	0.888	0.925
Ours	0.838	0.931	0.956

DreamHumanは、多様でアニメーション可能な3D人間を、リアルなテクスチャと衣服の変形とともに生成する。
アブレーション実験では、セマンティックズームが顔と体領域のテクスチャ品質を大幅に向上させる。
ポーズ依存の衣服変形は、アバターを再ポーズさせた際にスカートや衣服の挙動をより自然にする。
DreamFusionと比較して、DreamHumanはCLIPベースのアライメントが高く、定性的評価で全身の再構成もより良い。
定性的比較では、DreamHumanはルーズな衣服やアクセサリにおいてAvatarCLIPより優れたジオメトリとテクスチャを示す。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。