QUICK REVIEW

[論文レビュー] EVA3D: Compositional 3D Human Generation from 2D Image Collections

Fangzhou Hong, Zhaoxi Chen|arXiv (Cornell University)|Oct 10, 2022

Human Pose and Action Recognition被引用数 35

ひとこと要約

EVA3D は 2D 画像コレクションから高解像度の、無条件の 3D 人間生成器を学習する。構成的 NeRF 表現と姿勢誘導トレーニングを用い、アニメーション可能な 3D 人間を現実的なジオメトリと質感で合成する。

ABSTRACT

Inverse graphics aims to recover 3D models from 2D observations. Utilizing differentiable rendering, recent 3D-aware generative models have shown impressive results of rigid object generation using 2D images. However, it remains challenging to generate articulated objects, like human bodies, due to their complexity and diversity in poses and appearances. In this work, we propose, EVA3D, an unconditional 3D human generative model learned from 2D image collections only. EVA3D can sample 3D humans with detailed geometry and render high-quality images (up to 512x256) without bells and whistles (e.g. super resolution). At the core of EVA3D is a compositional human NeRF representation, which divides the human body into local parts. Each part is represented by an individual volume. This compositional representation enables 1) inherent human priors, 2) adaptive allocation of network parameters, 3) efficient training and rendering. Moreover, to accommodate for the characteristics of sparse 2D human image collections (e.g. imbalanced pose distribution), we propose a pose-guided sampling strategy for better GAN learning. Extensive experiments validate that EVA3D achieves state-of-the-art 3D human generation performance regarding both geometry and texture quality. Notably, EVA3D demonstrates great potential and scalability to "inverse-graphics" diverse human bodies with a clean framework.

研究の動機と目的

2D 画像コレクションから高品質な3D人間生成の必要性を、姿勢と外見の複雑さにもかかわらず動機付ける。
効率的に関節的人間をモデル化するための構成的 NeRF ベースの表現を提案する。
2Dデータセットの姿勢/視点の不均衡に対処する訓練戦略を開発する。
超解像モジュールなしで高いレンダリング解像度で最先端の3D人間生成品質を実証する。

提案手法

16個のパート特異サブネットワークを用いた構成的 humanoid NeRF を導入する。
それぞれ人体の局所境界ボックスをモデル化する。
canonical 空間で局所サブネットワークを照会し、点が複数の境界ボックスに入る場合はウィンドウ化ブレンディング方式で出力をブレンドする。
SMPL に基づく前方/逆 LBS で境界ボックスを対象ポーズへ変換し、局所ボリュームで点をサンプリングし、NeRF querying のため canonical 空間へ戻して光線をレンダリングする。
canonical と観測空間の間でテクスチャ/ジオメトリを変換し、テンプレートメッシュからジオメトリオフセット (Delta SDF) を予測することで SMPL を強力な priors として使用する。
絶対 SDF ではなく SDF オフセット Delta d(x) を予測して人間 priors を活用し、正しいジオメトリ勾配を強制する Eikonal 損失を適用する。
前方ビューの頭部角度を中心としたガウス分布で pose-guided sampling を用いて 2D 姿勢/視点分布のバランスを取り、ジオメトリ学習を改善する。
2D 画像から導かれた学習された p_est に基づく姿勢/形状パラメータから z でレンダリングする G と、実データの 2D コレクションを識別する D からなる GAN フレームワークで訓練する。
Delta SDF 学習を安定化させるため、L_off (オフセットの大きさ) および L_eik (オフセットの滑らかさ) を含む正則化項を用いる。
Delta SDF 学習を安定化させるため、L_off (オフセットの大きさ) および L_eik (オフセットの滑らかさ) を含む正則化項を用いる。
R1 正則化を伴う非飽和 GAN 損失で最適化し、Delta-SDF 損失を加えることで妥当な人間ジオメトリを維持する。

実験結果

リサーチクエスチョン

RQ1構成的 NeRF 表現は、2D 画像コレクションだけを用いて高解像度の 3D 人間生成を可能にするのか？
RQ2SMPL priors と pose-guided sampling は、2D 姿勢分布の不均衡下でジオメトリとテクスチャ品質を改善できるのか？
RQ3SMPL ベースのテンプレートから SDF オフセットを予測することは、3D のリアリズムとポーズ制御性にどのような影響を与えるのか？
RQ43D データの監督なしに、V EVA3D はどの程度まで、ポーズ/形状の操作性と忠実な 3D/2D 一貫性を実現できるのか？

主な発見

EVA3D は超解像モジュールなしで高解像度 (512×256) のレンダリングと訓練を達成し、複数のデータセットでベースラインより優れている。
構成的 NeRF 表現は身体パーツへの計算を局所化することで効率を改善し、関節を持つ人間の 3D 一貫性を向上させる。
Delta SDF と SMPL priors は FID と深度精度を大幅に改善し、スパースな 2D 姿勢下でのジオメトリ学習を向上させる。
姿勢誘導サンプリングはジオメトリ（深度誤差の低減）を改善する一方、RGB 品質とのトレードオフが観察され、前方ビュー中心のガウス分布がバランスのとれた結果を提供する。
EVA3D は DeepFashion、SHHQ、UBCFashion、AIST のデータセット全体で最先端の FID/KID と深度指標を達成し、制御可能な姿勢/形状生成と 3D 一貫性を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。