QUICK REVIEW

[論文レビュー] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

Shunsuke Saito, Tomas Simon|arXiv (Cornell University)|Apr 1, 2020

Human Pose and Action Recognition参考文献 46被引用数 42

ひとこと要約

PIFuHDは、単一の1024×1024画像から1k解像度で高忠実度の衣服を着た3D人体を再構成するための、2レベルのエンドツーエンドなピクセル整列の暗黙的関数を導入し、前後ノーマルの予測によってオクルージョンを解決する。

ABSTRACT

Recent advances in image-based 3D human shape estimation have been driven by the significant improvement in representation power afforded by deep neural networks. Although current approaches have demonstrated the potential in real world settings, they still fail to produce reconstructions with the level of detail often present in the input images. We argue that this limitation stems primarily form two conflicting requirements; accurate predictions require large context, but precise predictions require high resolution. Due to memory limitations in current hardware, previous approaches tend to take low resolution images as input to cover large spatial context, and produce less precise (or low resolution) 3D estimates as a result. We address this limitation by formulating a multi-level architecture that is end-to-end trainable. A coarse level observes the whole image at lower resolution and focuses on holistic reasoning. This provides context to an fine level which estimates highly detailed geometry by observing higher-resolution images. We demonstrate that our approach significantly outperforms existing state-of-the-art techniques on single image human shape reconstruction by fully leveraging 1k-resolution input images.

研究の動機と目的

512×512入力制限を超えた高忠実度の単一画像3D人間再構成を動機づける。
粗いグローバルコンテキストと高解像度の局所ディテールを統合する多段階のエンドツーエンドフレームワークを提案する。
画像空間ノーマルを介した backside/オクルージョン領域のガイダンスを活用し、完成度と現実感を改善する。
指、顔特徴、衣服の皺を保持する1k解像度の再構成を実証する。

提案手法

Pixel-Aligned Implicit Function (PIFu)を、512×512（ coarse ）と1024×1024（ fine ）の入力を処理する2レベルのアーキテクチャへ拡張する。
粗いレベルは、ダウンサンプリング画像からの特徴と予測されたfront/back normalsを用いて占有を予測する；細部レベルへ3D埋め込みを提供する。
細部レベルは高解像度の特徴と粗い3D埋め込みを用いて、より高忠実度の占有場を予測する。
front/back normals は image-to-image翻訳ネットワーク（pix2pixHD）で生成され、オクルージョン領域のジオメトリをガイドする追加特徴として入力される。
トレーニングは、多段階損失と、抽出点上の拡張BCEを用い、曲率認識の重要度サンプリングを含んで細部をシャープにする。
粗いモジュールと細部モジュールの交互トレーニングは、エンドツーエンドの結合トレーニングより高い精度をもたらす可能性がある。

実験結果

リサーチクエスチョン

RQ1マルチレベルのピクセル整列暗黙表現は、高解像度入力を活用して単一画像から1kディテールの3D人間を生成できるか？
RQ2粗いレベルからの3D埋め込みと画像空間ノーマル事前推定を組み込むと、背面側および細部再構成は改善されるか？
RQ3粗いレベルと細部レベルの交互トレーニングは、高忠実度再構成においてエンドツーエンド結合トレーニングより効果的か？
RQ4ポイント-to-サーフェス距離、Chamfer距離、法線整合性の観点で、他の最先端の単一視点手法と比較して本手法はどうか？

主な発見

手法	ノーマル	P2S	Chamfer
Fine module only (RenderPeople)	0.213	4.15	2.77
Fine module + Global image feature (RenderPeople)	0.165	2.92	2.13
Single PIFu (RenderPeople)	0.109	1.45	1.47
Ours (ML-PIFu, end-to-end) (RenderPeople)	0.117	1.66	1.55
Ours (ML-PIFu, alternate) (RenderPeople)	0.111	1.41	1.44
Ours with normals (RenderPeople)	0.107	1.37	1.43
Fine module only (BUFF)	0.229	3.63	2.67
Fine module + Global image feature (BUFF)	0.183	2.767	2.24
Single PIFu (BUFF)	0.134	1.68	1.76
Ours (ML-PIFu, end-to-end) (BUFF)	0.147	1.88	1.81
Ours (ML-PIFu, alternate) (BUFF)	0.133	1.63	1.73
Ours with normals (BUFF)	0.134	1.63	1.75

RenderPeopleおよびBUFFデータセットで、単一レベルのPIFuおよび他のベースラインより1k解像度で高忠実度の3D再構成を達成。
大容量の高解像度特徴埋め込み（512×512）と全体的な3D埋め込みが、128×128特徴よりディテールを改善。
画像空間ガイダンスによる予測背面ノーマルを取り込むと、曖昧さが低減され、オクルージョン領域のディテールが向上。
粗い/細いトレーニングの交互実施は、結合エンドツーエンドトレーニングより一般的に高い精度を生む。
ノーマルを使用すると、前面と背面の表面のよりシャープなディテールとより現実的な皺が定性的に観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。