QUICK REVIEW

[論文レビュー] Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression

Aaron S. Jackson, Adrian Bulat|Research Repository (Kingston University London)|Mar 22, 2017

Face recognition and analysis参考文献 22被引用数 44

ひとこと要約

本稿では、3Dモーファブルモデル（3DMM）のフィッティングを回避する、エンドツーエンドで3D顔形状ボリュームを回帰するボリューメトリックCNNを用いた、単一の2D画像からの直接的3D顔再構成手法を提案する。空間的に整合されたボリューム回帰と統合された3Dランドマークガイダンスを活用することで、多様なポーズや表情において最先端の性能を達成する。

ABSTRACT

3D face reconstruction is a fundamental Computer Vision problem of extraordinary difficulty. Current systems often assume the availability of multiple facial images (sometimes from the same subject) as input, and must address a number of methodological challenges such as establishing dense correspondences across large facial poses, expressions, and non-uniform illumination. In general these methods require complex and inefficient pipelines for model building and fitting. In this work, we propose to address many of these limitations by training a Convolutional Neural Network (CNN) on an appropriate dataset consisting of 2D images and 3D facial models or scans. Our CNN works with just a single 2D facial image, does not require accurate alignment nor establishes dense correspondence between images, works for arbitrary facial poses and expressions, and can be used to reconstruct the whole 3D facial geometry (including the non-visible parts of the face) bypassing the construction (during training) and fitting (during testing) of a 3D Morphable Model. We achieve this via a simple CNN architecture that performs direct regression of a volumetric representation of the 3D facial geometry from a single 2D image. We also demonstrate how the related task of facial landmark localization can be incorporated into the proposed framework and help improve reconstruction quality, especially for the cases of large poses and facial expressions. Testing code will be made available online, along with pre-trained models http://aaronsplace.co.uk/papers/jackson2017recon

研究の動機と目的

複雑なパイプライン、3DMMフィッティング、密な対応推定に依存する従来の3D顔再構成手法の限界を解消すること。
正確なアライメント、3DMM構築、反復的最適化を必要としない単一画像からの3D顔再構成を可能にすること。
エンドツーエンドのディープラーニングアプローチにより、任意の顔のポーズ、表情、遮蔽に対してもロバストな再構成を達成すること。
再構成品質を向上させるために、フレームワークに3D顔ランドマーク検出を統合すること。特に困難な条件下でも有効である。
制御された環境および非制御環境のWeb画像の両方で、精度において最先端の手法を上回る優れた性能を示すこと。

提案手法

2D画像と3D顔スキャンのペアデータセットを用いて、単一の2D画像から3D顔形状ボリュームを直接回帰する3DボリューミックCNNを学習する。
入力画像と整合した固定3D座標系に沿った空間的に整合されたボリューム表現を用いる。この3Dボリュームは、入力画像に合わせて空間的に整列された固定座標系で回帰される。
3Dランドマーク予測をガウスヒートマップを通じて指導信号として組み込んだガイド付きバージョン（VRN-Guided）を導入し、空間的一致性を向上させる。
予測された3Dボリュームと真値の間の回帰損失を用いて、エンドツーエンドでネットワークを学習する。
ポーズ、表情、照明の変動に一般化するため、データオーグメンテーションおよび正規化技術を適用する。
複雑な最適化ループをテスト時に必要としないシンプルで浅いCNNアーキテクチャを用いることで、効率的な学習と推論を実現する。

実験結果

リサーチクエスチョン

RQ13DMMや反復的フィッティングに依存せずに、CNNが単一の2D画像から直接3D顔形状ボリュームを回帰できるか？
RQ2回帰中に3Dボリュームの空間的整合性を保つことで、特に大きなポーズにおいて再構成精度が向上するか？
RQ3極端なポーズや表情下でも、3Dランドマークの指導が再構成品質にどの程度向上効果をもたらすか？
RQ4制御されたデータおよび非制御データの両方において、提案手法は最先端の3D顔再構成技術と比較してどの程度の性能を示すか？
RQ5ランドマークガイダンスやガウス分布のサイズといったネットワーク設計の選択が、再構成のロバスト性および正確性に与える影響はいかほどか？

主な発見

提案手法は3つのベンチマークデータセットにおいて最先端の性能を達成し、単一画像からの3D顔再構成において従来手法を顕著に上回った。
VRN-Guidedモデルは、ガイドなしベースラインおよび3DDFAやEOSといった既存のSOTA手法と比較して、平均3D再構成誤差を大幅に低減した。
ヨー角が大きくなるにつれて顔の可視領域が減少するためわずかに性能が低下するが、極端なポーズでも依然として低誤差を維持した。
表情の変化が再構成誤差にほとんど影響を与えないことから、極端な表情の訓練データが限られているにもかかわらず、非ニュートラルな表情に対してもロバストであることが示された。
ランドマークガイダンスに大きなガウスヒートマップ（σ=2）を用いた場合でも性能低下は顕著ではなく、ガイドが適切なサイズ範囲内であれば有効であることが確認された。
空間的整合性を排除した（固定のフロントビューを回帰する）場合、再構成形状がほとんど同一になり、顕著に不良な結果となることから、空間的整合性が正確な再構成に不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。