[論文レビュー] Learning Disentangled Avatars with Hybrid 3D Representations
DELTA は、明示的なメッシュベースの体/顔と暗黙的 NeRF ベースの髪と衣服を組み合わせ、単眼ビデオからエンドツーエンドで訓練することにより、分離されたアバターを学習します。
Tremendous efforts have been made to learn animatable and photorealistic human avatars. Towards this end, both explicit and implicit 3D representations are heavily studied for a holistic modeling and capture of the whole human (e.g., body, clothing, face and hair), but neither representation is an optimal choice in terms of representation efficacy since different parts of the human avatar have different modeling desiderata. For example, meshes are generally not suitable for modeling clothing and hair. Motivated by this, we present Disentangled Avatars~(DELTA), which models humans with hybrid explicit-implicit 3D representations. DELTA takes a monocular RGB video as input, and produces a human avatar with separate body and clothing/hair layers. Specifically, we demonstrate two important applications for DELTA. For the first one, we consider the disentanglement of the human body and clothing and in the second, we disentangle the face and hair. To do so, DELTA represents the body or face with an explicit mesh-based parametric 3D model and the clothing or hair with an implicit neural radiance field. To make this possible, we design an end-to-end differentiable renderer that integrates meshes into volumetric rendering, enabling DELTA to learn directly from monocular videos without any 3D supervision. Finally, we show that how these two applications can be easily combined to model full-body avatars, such that the hair, face, body and clothing can be fully disentangled yet jointly rendered. Such a disentanglement enables hair and clothing transfer to arbitrary body shapes. We empirically validate the effectiveness of DELTA's disentanglement by demonstrating its promising performance on disentangled reconstruction, virtual clothing try-on and hairstyle transfer. To facilitate future research, we also release an open-sourced pipeline for the study of hybrid human avatar modeling.
研究の動機と目的
- 効率性と現実感のために、部位別表現の選択を用いてフォトリアルなアバターの学習を動機づける。
- 顔と体を髪から分離し、髪と衣服を別々に分離して柔軟な編集を可能にする。
- ハイブリッドな mesh-NeRF レンダラが、3D 監視なしで単眼ビデオからエンドツーエンドで訓練できることを示す。
- 任意の体型へ髪と衣服の転送を可能にする、分離されたアバターを紹介する。
提案手法
- 制御可能なジオメトリとポーズのため、顔と体を明示的なメッシュモデル(SMPL-X)で表現する。
- 髪と衣服を暗黙的 NeRF で表現し、複雑なトポロジーの柔軟で高忠実なレンダリングを実現する。
- メッシュラスタライズと NeRFシェーディングを組み合わせた、メッシュ統合体積レンダリングを導入する。
- 外層のため、SMPL-X スキニングと学習された非剛性変形を組み合わせて、ポーズ依存の変形をモデル化する。
- 微分可能レンダリングと3D監督なしで、単眼 RGB ビデオからエンドツーエンドで全パイプラインを訓練する。

実験結果
リサーチクエスチョン
- RQ1体と衣服を異なる3D表現(体はメッシュ、衣服は NeRF)を用いて分離できるか?
- RQ2顔と髪を、顔にメッシュを、髪に NeRF を割り当てることで分離できるか?
- RQ3補助的な3D監視なしで、単眼ビデオからのエンドツーエンド学習が高忠実性を維持しつつ実現可能か?
- RQ4このフレームワークで学習された髪と衣服を新しい体型やポーズへ転送できるか?
主な発見
- DELTA は、統合されたフレームワークで頭部の分離再構成(顔 vs 髪)と体の分離再構成(体 vs 衣服)を達成する。
- 髪と衣服を NeRF でレンダリングすると、非剛性ジオメトリの高忠実な細部を提供し、体と顔は SMPL-X によって容易にアニメーション可能なままになる。
- 新規の微分可能なメッシュ統合体積レンダラーが、単眼動画から直接エンドツーエンド学習を実現する。
- 分離表現は、髪と衣服を任意の体型やポーズへ転送することを可能にする。
- このアプローチは、分離再構成、仮想衣服試着、そしてヘアスタイル転送において有望な性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。