QUICK REVIEW

[論文レビュー] Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set

Yu Deng, Jiaolong Yang|arXiv (Cornell University)|Mar 20, 2019

Face recognition and analysis参考文献 54被引用数 38

ひとこと要約

この論文は、ハイブリッドな画像レベルと知覚レベルの損失を用いた単一画像からの弱教師あり3D顔再構成のCNNベースのフレームワークを提示し、複数画像を統合するための信頼度ベースの集約ネットワークを導入して、3D形状再構成を改善します。

ABSTRACT

Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency.However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance.

研究の動機と目的

ランドマーク、肌マスク、顔認識特徴量などの弱い監督信号を活用して、真の3Dラベルを持たないまま正確な3D顔再構成を動機づける。
低レベルのフォトメトリック情報と知覚レベル（深層特徴）監督を組み合わせたハイブリッドレベルの損失を開発し、学習を導く。
遮蔽と外観変化に対する頑健性を高めるため、肌色ベースのフォトメトリックアテンション機構を提案する。
画像セット全体で3DMM係数を集約するため、係数ごとの信頼度スコアを学習して多画像再構成を可能にする。
複数のデータセットで最先端の性能を示し、推論速度の速さを示す。

提案手法

CNN(R-Net)を用いて単一画像から3D Morphable Model係数、照明、姿勢を回帰する。
肌アテンションマスクを用いた画像レベルのフォトメトリック損失、ランドマーク損失、事前学習済み顔認識ネットワークを使用した知覚レベル損失、そして3DMM係数とテクスチャ分散の正則化項を組み合わせたハイブリッド損失で訓練する。
ナイーブベイズの肌分類器から計算される肌アテンション機構を導入し、ピクセル差異の重み付けを行う。
マルチ画像設定では、補助ネットワーク(C-Net)を学習して係数ごとの信頼度スコアを出力し、画像間で要素ごとに係数を融合できるようにする。
予測された信頼度を用いて、画像間で同一性係数を加重平均として集約し、姿勢と照明の多様性が再構成を向上させる。
ラベルなしでC-Netを訓練し、集約された単一画像再構成を同じハイブリッド損失を通じて集約して逆伝播させる形で、C-Netをラベルなしで訓練する。

実験結果

リサーチクエスチョン

RQ1地真の3D形状を持たない単一画像から、ハイブリッドな画像レベルと知覚レベルの損失で弱教師付き3D顔再構成を改善できるか？
RQ2肌色ベースのフォトメトリックアテンションは、遮蔽や外観変化に対する頑健性を3D再構成で改善するか？
RQ3補助ネットワークは、係数ごとの信頼度を予測して複数の顔画像を効果的に集約し、より正確な3D形状を得られるか？
RQ4学習された信頼度を用いた多画像の集約は、素朴な平均化やグローバル品質スコアを用いる方法よりも、制約のない画像セットで優れるか？
RQ5標準データセット全般で、提案手法は最先端の教師ありおよび教師なし/弱教師あり手法とどう比較されるか？

主な発見

提案されたハイブリッド損失を用いた単一画像再構成は、MICCとFaceWarehouseデータセットで最先端の精度を達成する。
画像レベルと知覚レベルの監督を結合した方法は、どちらか一方の信号のみを用いるよりも優れている。
肌アテンションは、遮蔽や難しい外観（ひげ、メイクなど）に対する頑健性を向上させる。
要素ごと信頼度ベースの係数融合を用いた多画像集約は、形状の平均化や他の戦略よりも良い3D再構成を生み出し、教師ありの性能に近づく。
データセットを跨いで、遮蔽と大きな姿勢に対する頑健性を示し、推論速度が速い（特定設定では1回の前方伝播で20 ms）。
信頼度-Netは高品質で高視認性の画像を強調することを効果的に学習し、姿勢の違いを利用して融合を改善できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。