[論文レビュー] Generative Neural Articulated Radiance Fields
GNARF は canonical pose の人間の放射場を生成する 3D対応 GAN を学習し、編集可能な pose-正確なレンダリングのために露出変形場でそれらをワープします。
Unsupervised learning of 3D-aware generative adversarial networks (GANs) using only collections of single-view 2D photographs has very recently made much progress. These 3D GANs, however, have not been demonstrated for human bodies and the generated radiance fields of existing frameworks are not directly editable, limiting their applicability in downstream tasks. We propose a solution to these challenges by developing a 3D GAN framework that learns to generate radiance fields of human bodies or faces in a canonical pose and warp them using an explicit deformation field into a desired body pose or facial expression. Using our framework, we demonstrate the first high-quality radiance field generation results for human bodies. Moreover, we show that our deformation-aware training procedure significantly improves the quality of generated bodies or faces when editing their poses or facial expressions compared to a 3D GAN that is not trained with explicit deformations.
研究の動機と目的
- 単一視画像コレクションから人間(身体と顔)の編集可能な放射場の無 supervision 生成を実現する。
- canonical 放射場を target pose/expressions にマッピングする explicit deformation field を導入する。
- StyleGAN2 と互換な効率的な 3D 生成のために tri-plane 放射表現を活用する。
- 非変形 3D GAN ベースラインと比較して pose/editability およびレンダリング品質の改善を示す。
提案手法
- 放射場を表現する tri-plane feature volumes を用いる。
- テンプレートメッシュ(身体/頭)上の最近傍三角形対応を使用して canonical pose 座標を target pose に写像する Surface Field (SF) deformation を導入する。
- SF によって canonical 放射場 D(x) を変形して pose 放射場を得る(式(2))。
- 変形後の tri-plane features から per-point color と density を MLP で予測する(式(1))。
- 標準の体積レンダリングを用いて光線に沿って neural volume rendering を実行する(式(3))。
- GAN を訓練する際、生成器(StyleGAN2)は canonical 放射場を出力する。一方判別器は正確なワープを課すため camera および body pose 条件付けを使用する(生成器には pose 条件付けを行わない)。
実験結果
リサーチクエスチョン
- RQ1単一視画像から unsupervised に 3D対応 GAN を訓練し canonical pose の人間の編集可能な放射場を生成できるか?
- RQ2体の pose や表情を編集する際に explicit deformation ステップを追加することで、非変形 3D GAN と比べて品質が向上するか?
- RQ3SF deformation は複数の bodies/faces に対して GAN 訓練のために高速で堅牢か?
- RQ4GNARF は多様なデータセット(AIST++, SURREAL, FFHQ)において忠実度と編集可能性の点でどう性能を発揮するか?
主な発見
| Training images | Test images | Run time [ms] ↓ | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|---|---|
| Skinning | 18.8 | 0.942 | 0.060 | ||
| MVC [35] | 18.1 | 0.937 | 0.067 | ||
| Surface Field | 19.0 | 0.943 | 0.058 | ||
| Test (Skinning) | 17.9 | 0.940 | 0.067 | ||
| Test (MVC) | 17.2 | 0.934 | 0.074 | ||
| Test (SF) | 18.0 | 0.940 | 0.065 |
- GNARF は人間の身体の多視点一貫性放射場と編集可能な顔の高品質な再現を達成する。
- Surface Field deformation は single-scene overfitting において MVC および skinning を上回り、速度も速い(SF: PSNR 19.0 training, 18.0 test; Skinning: PSNR 18.8 training, 17.9 test; MVC: PSNR 18.1 training, 17.2 test)。
- 実験では deformation を用いた GNARF が強力なアニメーション品質を示す(AIST++: FID 7.9, PCKh@0.5 0.980; SURREAL: FID 4.7, PCKh@0.5 0.999)。
- FFHQ の顔について、GNARF はベースラインより FID およびアニメーション能力の点で優れており(EG3D+warp, PIRenderer, 3D GAN inversion)、AED 0.23, APD 0.025, ID-Consistency 0.80 を達成; アイデンティティ整合性を維持。
- GNARF は robust な再アニメーションを実現し、canonical 放射場を生成した後にワープするベースラインよりワープアーティファクトを低減する。
- このアプローチは身体と顔の両方に適用可能で、異なるテンプレート(頭部には FLAME、身体には SMPL)を取り込むことができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。