QUICK REVIEW

[論文レビュー] 3DFaceNet: Real-time Dense Face Reconstruction via Synthesizing Photo-realistic Face Images

Yudong Guo, Juyong Zhang|arXiv (Cornell University)|Aug 3, 2017

Face recognition and analysis参考文献 6被引用数 9

ひとこと要約

本論文では、逆レンダリングとマルチスケールディテール転送を用いて、細部が豊富な写真のようにリアルな顔画像を合成する新しいデータ生成パイプラインを備えた、リアルタイムで高密度な3次元顔再構築フレームワーク「3DFaceNet」を提案する。合成画像と動画フレームペアの多様なデータセットで訓練されたコarse-to-fine CNNフレームワークは、単一の画像や単眼動画から、顔のポーズ、表情、照明の変化に対して強く、計算時間も著しく短縮された高品質な3次元再構築を実現する。

ABSTRACT

With the powerfulness of convolution neural networks (CNN), CNN based face reconstruction has recently shown promising performance in reconstructing detailed face shape from 2D face images. The success of CNN-based methods relies on a large number of labeled data. The state-of-the-art synthesizes such data using a coarse morphable face model, which however has difficulty to generate detailed photo-realistic images of faces (with wrinkles). This paper presents a novel face data generation method. Specifically, we render a large number of photo-realistic face images with different attributes based on inverse rendering. Furthermore, we construct a fine-detailed face image dataset by transferring different scales of details from one image to another. We also construct a large number of video-type adjacent frame pairs by simulating the distribution of real video data. With these nicely constructed datasets, we propose a coarse-to-fine learning framework consisting of three convolutional networks. The networks are trained for real-time detailed 3D face reconstruction from monocular video as well as from a single image. Extensive experimental results demonstrate that our framework can produce high-quality reconstruction but with much less computation time compared to the state-of-the-art. Moreover, our method is robust to pose, expression and lighting due to the diversity of data.

研究の動機と目的

深層学習モデルの学習に必要な大規模で、写真のようにリアルで詳細な3次元顔画像データセットの不足を解消すること。
肌のしわや微細なテクスチャなどのリアルな顔のディテールを生成するのに限界がある粗いモーファブルモデルの課題を克服すること。
制御された属性とリアルな照明を備えた多様で高品質な顔画像を合成するデータ生成パイプラインを開発すること。
実際の時間的ダイナミクスを模倣するための、隣接フレームペアから構成される大規模な動画風データセットを構築すること。
軽量でエンドツーエンドの深層学習フレームワークを用いて、単眼動画や単一画像からリアルタイムかつ正確な3次元顔再構築を実現すること。

提案手法

顔の外観と形状を最適化することで、顔のアイデンティティ、ポーズ、表情、照明などの多様な属性を持つ写真のようにリアルな顔画像を逆レンダリングによって合成する。
高解像度のソース画像から得た微細なテクスチャ（例：しわ）を、ターゲット画像へマルチスケールで転送することで、リアルさを向上させる。
上記の技術を用いて、詳細な表面ディテールを備えた合成2次元顔画像の大規模データセットを構築する。
実際の動画の分布を模倣するように、現実的な動きと外観の遷移をシミュレートすることで、動画風の隣接フレームペアを生成する。
単一の2次元画像または動画シーケンスから、段階的に3次元顔形状とテクスチャを精緻化する、コarse-to-fineの3段階のCNNアーキテクチャを設計する。
合成データセットを用いてネットワークをエンドツーエンドで訓練し、一般のGPUでもリアルタイム推論を可能にする。

実験結果

リサーチクエスチョン

RQ1逆レンダリングとディテール転送に基づくデータ生成パイプラインは、しわなどの細部が豊富な写真のようにリアルな高解像度3次元顔画像を生成できるか？
RQ2マルチスケールディテール転送と動画風フレームペアを組み合わせた合成データセットは、ポーズ、表情、照明の変化に対して、顔再構築の耐性を高めるのにどの程度有効か？
RQ3合成データで訓練されたコarse-to-fine CNNフレームワークは、高品質な再構築を維持しながらリアルタイム性能を達成できるか？
RQ4動画風フレームペアの使用は、単眼3次元顔再構築における時間的整合性をどの程度向上させるか？
RQ5本手法は、再構築精度と推論速度の面で、最先端の手法と比較してどの程度優れているか？

主な発見

提案されたデータ生成手法は、しわなどの細部が豊富な写真のようにリアルな顔画像を効果的に合成でき、従来のモーファブルモデルを上回るリアルさを実現した。
マルチスケールディテール転送と動画風フレームペアを統合した合成データセットのおかげで、アイデンティティ、ポーズ、表情、照明の多様な条件下でも、モデルの一般化性能が著しく向上した。
3DFaceNetフレームワークは、標準的なGPUでもリアルタイム推論を達成し、SOTA手法と比較して計算時間を著しく短縮した。
訓練データの多様性のおかげで、顔のポーズの大きな変化や複雑な表情変化といった困難な条件下でも、モデルは頑健な性能を示した。
コarse-to-fineアーキテクチャにより、従来の手法と比較して、幾何学的およびテクスチャの精度が向上した高精細な3次元顔再構築が実現された。
低遅延を維持しながらも、競争力のある再構築品質を達成したため、AR/VRやバイオメトリクスなどのリアルタイム応用に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。