QUICK REVIEW

[論文レビュー] DeepHuman: 3D Human Reconstruction from a Single Image

Zerong Zheng, Tao Yu|arXiv (Cornell University)|Mar 15, 2019

Advanced Vision and Imaging参考文献 72被引用数 20

ひとこと要約

DeepHumanは、パラメトリックなSMPLモデルからの密なセマンティック表現とマルチスケールボリュメトリック特徴変換を活用して、1枚のRGB画像から3次元人体再構成を実現する、新しいCNNベースのフレームワークを提案する。ボリュメトリックなノーマルリファインメントネットワークをエンドツーエンドで学習可能にすることで最先端の性能を達成し、多様な衣装とポーズを持つ約7,000枚の実世界の人体メッシュを含むTHumanデータセットを導入する。

ABSTRACT

We propose DeepHuman, an image-guided volume-to-volume translation CNN for 3D human reconstruction from a single RGB image. To reduce the ambiguities associated with the surface geometry reconstruction, even for the reconstruction of invisible areas, we propose and leverage a dense semantic representation generated from SMPL model as an additional input. One key feature of our network is that it fuses different scales of image features into the 3D space through volumetric feature transformation, which helps to recover accurate surface geometry. The visible surface details are further refined through a normal refinement network, which can be concatenated with the volume generation network using our proposed volumetric normal projection layer. We also contribute THuman, a 3D real-world human model dataset containing about 7000 models. The network is trained using training data generated from the dataset. Overall, due to the specific design of our network and the diversity in our dataset, our method enables 3D human model estimation given only a single image and outperforms state-of-the-art approaches.

研究の動機と目的

可視領域外や衣装で覆われた領域を含めた詳細な3次元人体再構成を、1枚のRGB画像から行う挑戦に応えること。
パrametricなSMPLモデルから導出される密なセマンティック事前知識を統合することで、3次元再構成における幾何的曖昧性を低減すること。
マルチスケールの画像特徴を3次元ボリューム空間に統合することで、表面の詳細回復を向上させ、正確な幾何推定を実現すること。
新規のボリュメトリックなノーマルプロジェクション層を介して、表面詳細のリファインメントをエンドツーエンドで学習可能なノーマルリファインメントネットワークを実装すること。
多様で現実的で大規模な3次元人体データセット（THuman）を提供し、1枚画像からの3次元再構成モデルの学習と評価を支援すること。

提案手法

HMRや類似手法を用いて1枚の画像からSMPLボディ形状とポーズパラメータを推定し、補助的監視として密な3次元セマンティックボリュームと2次元セマンティックマップを生成する。
画像誘導型ボリューム・ツー・ボリューム変換CNNを採用し、ボリュメトリック特徴変換（VFT）を介してマルチスケールの画像特徴を3次元空間に統合することで、幾何再構成を向上させる。
ボリューム生成ネットワークと専用のノーマルリファインメントU-Netを接続するためのボリュメトリックなノーマルプロジェクション層を導入し、表面詳細のリファインメントをエンドツーエンドで学習可能にする。
マルチスケールのVFTを用いて、高解像度の画像特徴（例：しわ、髪の毛）を3次元ボリュームに統合し、過剰に滑らかになるのを防ぎ、境界の正確性を向上させる。
THumanデータセットから生成された合成データでネットワークを学習する。このデータセットには、多様な衣装とポーズを持つ約7,000枚の実世界の人体メッシュが含まれる。
DoubleFusionに基づくTHumanキャプチャパイプラインを活用し、リアルタイムで衣装を着た人の高品質で中程度の詳細な外周囲幾何を再構成する。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、可視領域外や複雑な衣装の詳細を含めた、妥当な3次元人体幾何を1枚のRGB画像から再構成できるか？
RQ2SMPLモデルから得られる密なセマンティック表現の統合は、3次元再構成空間の制約を強め、幾何的正確性を向上させるのにどの程度有効か？
RQ3マルチスケールのボリュメトリック特徴統合は、髪の毛や布地の輪郭といった細粒度の表面詳細の回復をどの程度向上させるか？
RQ4ボリュメトリックプロジェクション層を介して接続された専用のノーマルリファインメントネットワークは、表面ノーマルの品質と可視領域の詳細忠実度を顕著に向上させられるか？
RQ5大規模で現実的で多様な実世界の3次元人体データセット（THuman）は、1枚画像からの3次元再構成モデルの一般化性能にどのような影響を及えるか？

主な発見

提案手法は、1枚の画像からの3次元人体再構成において、最先端の手法を上回る性能を達成し、より高い再構成精度と優れた一般化性能を実現した。
密なセマンティックボリュームとマップを入力として用いることで再構成の曖昧性が低減され、IoUスコアが向上し、ボリューム再構成品質に15％の相対的向上が見られた。
マルチスケールのボリュメトリック特徴変換は境界回復を顕著に向上させた。本手法は、粗いまたは細かいスケール特徴のみを用いるベースラインが見逃す「髪のツインテール」のような複雑な特徴を正確に再構成できた。
ノーマルリファインメントネットワークは、合成データセット上で定量評価した結果、コサイン距離で22.5％、ℓ2-ノルムで22％の表面ノーマル誤差低減を達成した。
多様な衣装とポーズを持つ約7,000枚の実世界の人体メッシュを含むTHumanデータセットのおかげで、ネットワークは自然画像に良好に一般化され、頑健な性能を発揮した。
本フレームワークはモノクロナルビデオ再構成においても強く頑健で、静止画像を超えた応用可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。