QUICK REVIEW

[論文レビュー] Nonlinear 3D Face Morphable Model

Luan Tran, Xiaoming Liu|arXiv (Cornell University)|Apr 11, 2018

Face recognition and analysis参考文献 38被引用数 25

ひとこと要約

本稿では、3Dスキャンを一切使用せず、非制約的な2D顔画像からエンド・ツー・エンドに学習される非線形3次元顔モーファブルモデル（3DMM）を提案する。深層エンコーダ・デコーダフレームワークに微分可能レンダリング層を組み合わせた手法により、深層ネットワークによる非線形表現と弱い教師信号を活用することで、線形3DMMに比べて優れた3次元再構成性能と顔アライメント性能を達成する。

ABSTRACT

As a classic statistical model of 3D facial shape and texture, 3D Morphable Model (3DMM) is widely used in facial analysis, e.g., model fitting, image synthesis. Conventional 3DMM is learned from a set of well-controlled 2D face images with associated 3D face scans, and represented by two sets of PCA basis functions. Due to the type and amount of training data, as well as the linear bases, the representation power of 3DMM can be limited. To address these problems, this paper proposes an innovative framework to learn a nonlinear 3DMM model from a large set of unconstrained face images, without collecting 3D face scans. Specifically, given a face image as input, a network encoder estimates the projection, shape and texture parameters. Two decoders serve as the nonlinear 3DMM to map from the shape and texture parameters to the 3D shape and texture, respectively. With the projection parameter, 3D shape, and texture, a novel analytically-differentiable rendering layer is designed to reconstruct the original input face. The entire network is end-to-end trainable with only weak supervision. We demonstrate the superior representation power of our nonlinear 3DMM over its linear counterpart, and its contribution to face alignment and 3D reconstruction.

研究の動機と目的

線形3DMMが小規模なトレーニングデータセット、制御されたデータ、線形基底関数によって制限を受けるという限界を克服すること。
3D顔スキャンを必要とせず、大規模な非制約的な2D顔画像から3DMMを学習可能にすること。
3DMMとそのフィッティングネットワークをエンド・ツー・エンドかつ弱い教師信号を用いて同時に学習すること。
顔の複雑な変動を非線形にモデル化することで、3次元顔再構成と2次元顔アライメントの性能を向上させること。

提案手法

深層ニューラルネットワークのエンコーダが、1枚の2D顔画像から形状、テクスチャ、カメラ投影パラメータを推定する。
潜在パラメータから密な3次元顔形状と2次元テクスチャを生成する2つの別個のデコーダー（形状用MLPとテクスチャ用CNN）を採用する。
独自の解析的微分可能レンダリング層により、3次元形状、テクスチャ、投影パラメータから2次元画像を合成する。
ピxlsレベルの再構成損失（L1）と、オプションでPatchGANによる adversarial 損失を用いて、ネットワーク全体をエンド・ツー・エンドに訓練する。
3Dスキャンを一切使用せず、野生の2D画像からの弱い教師信号に依存して学習を行う。
解析から合成へのフィッティングが可能となり、出力としてテクスチャを合成するのではなく、入力として用いる。

実験結果

リサーチクエスチョン

RQ13Dスキャンの教師信号なしに、非制約的な2D顔画像から非線形3DMMを効果的に学習可能か？
RQ2深層ニューラルネットワークベースの3DMMは、線形PCAベースの3DMMと比較して、顔の形状とテクスチャの変動をどの程度うまくモデル化できるか？
RQ33DMMとそのフィッティングネットワークを共同でエンド・ツー・エンドに学習することで、3次元再構成と顔アライメントの性能が向上するか？
RQ43D教師信号が欠如する状況下で、adversarial 損失の影響はテクスチャのリアリズムにどのような効果をもたらすか？
RQ5提案されたフレームワークは、真値の3Dスキャンが存在しない状況でも、3次元再構成と顔アライメントで競争力のある性能を達成できるか？

主な発見

提案された非線形3DMMは、顔のひげや皮膚色の変動といった複雑な顔の細部を捉える能力を備えており、線形3DMMに比べて顕著に優れた3次元顔再構成品質を達成する。
AFLW2000データセットにおいて、3DDFAなどの最先端の3次元顔アライメント手法を上回り、1回の推論で処理可能な単一パス推論ネットワークでありながらも、より低い正規化平均誤差（NME）を達成する。
FaceWarehouseデータセットでは、オフライン最適化手法Garrido et al. [13]と同等の性能を達成し、他のすべての回帰ベース手法を上回る。
PatchGAN adversarial 損失を用いることで、グローバルディスクライマーよりも劣るか、またはadversarial 損失なしの場合よりも、よりリアルなテクスチャと少ないアーティファクトを得られる。
モデルは野生の顔画像への一般化性能が強く、線形3DMMがうまく捉えきれない人種的特徴、表情、顔のひげといった個人の顔特徴を回復できる。
アブレーションスタディにより、微分可能レンダリング層が効果的なエンド・ツー・エンド学習を可能にしていることが確認され、またadversarial 損失が3D教師信号なしでもテクスチャのリアリズムを向上させることも示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。