QUICK REVIEW

[論文レビュー] Recover Canonical-View Faces in the Wild with Deep Neural Networks

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|Apr 14, 2014

Face recognition and analysis参考文献 28被引用数 103

ひとこと要約

本論文では、多様なポーズや照明条件下の非制約的（ワイルド）な顔画像から標準的正面視点の顔画像を回復するためのディープラーニングフレームワークを提案する。標準的視点の選択を自動で行うメカニズムとコンポonentベースのCNNを用いることで、個人内変動を低減しながらも個人間の識別性を維持し、LFWベンチマークで最先端の性能を達成した。

ABSTRACT

Face images in the wild undergo large intra-personal variations, such as poses, illuminations, occlusions, and low resolutions, which cause great challenges to face-related applications. This paper addresses this challenge by proposing a new deep learning framework that can recover the canonical view of face images. It dramatically reduces the intra-person variances, while maintaining the inter-person discriminativeness. Unlike the existing face reconstruction methods that were either evaluated in controlled 2D environment or employed 3D information, our approach directly learns the transformation from the face images with a complex set of variations to their canonical views. At the training stage, to avoid the costly process of labeling canonical-view images from the training set by hand, we have devised a new measurement to automatically select or synthesize a canonical-view image for each identity. As an application, this face recovery approach is used for face verification. Facial features are learned from the recovered canonical-view face images by using a facial component-based convolutional neural network. Our approach achieves the state-of-the-art performance on the LFW dataset.

研究の動機と目的

ポーズ、照明、隠蔽、低解像度などの大きな個人内変動が顔認識を困難にする非制約的顔画像に対処する。
3Dモデルや手動ラベルに依存せずに、非制約的顔画像から標準的ビューへの変換を直接学習するディープラーニングフレームワークを開発する。
トレーニング中に各アイデンティティのための標準的ビュー画像を手動アノテーションなしに自動的に選択または合成する。
回復された標準的ビュー画像からロバストな顔特徴を学習することで、顔認証性能を向上させる。
回復された標準的顔画像を入力として、コンポonentベースのCNNを用いてLFWデータセットで最先端の正確性を達成する。

提案手法

ワイルドで制約のない顔画像から標準的正面ビュー表現へのマッピングを直接学習するためのディープニューラルネットワークを訓練する。複雑な変動からの変換を直接学習する。
各アイデンティティのための標準的ビュー画像を選択または合成するための自動測定法を考案し、手動ラベルの必要性を排除する。
回復された標準的ビュー画像からの特徴を抽出するために、顔のコンポonentベースの畳み込みニューラルネットワーク（CNN）を用いる。
ネットワークがポーズや照明といったアイデンティティに依存しない要因からアイデンティティに依存しない特徴を分離するように学習できる、エンドツーエンドでトレーニング可能なフレームワークである。
大規模な非制約的顔画像データセットをトレーニングに活用し、画像品質とアライメントに基づく教師なし選択メカニズムにより標準的ビューを生成する。
3D顔モデルや明示的な3Dの監視を必要とせず、2D画像データとディープ特徴学習にのみ依存する。

実験結果

リサーチクエスチョン

RQ13Dの監視なしに、深層ニューラルネットワークが非制約的でワイルドな画像から標準的正面顔ビューを効果的に回復できるか？
RQ2手動アノテーションなしに、各アイデンティティのための標準的ビュー画像を自動的に選択または合成する方法は何か？
RQ3標準的ビューを回復することで、ポーズや照明に起因する個人内変動はどの程度低減され、個人間の識別性はどのように維持されるか？
RQ4回復された標準的顔画像は、非制約的データに対して標準的なディープラーニング手法と比較して、顔認証の正確性を向上させられるか？
RQ5回復された標準的顔画像に対してコンポonentベースのCNNを用いることで、元のワイルド画像に対して標準CNNを用いる場合に比べてどの程度性能向上が得られるか？

主な発見

提案手法はLFWデータセットで最先端の性能を達成し、非制約的条件下での顔認証において既存手法を上回った。
自動標準的ビュー選択メカニズムは、手動ラベルなしに高品質で正面に近い画像を効果的に特定でき、スケーラブルなトレーニングを可能にした。
回復された標準的ビュー画像は、ポーズや照明に起因する個人内変動を顕著に低減し、特徴のロバスト性を向上させた。
回復された標準的ビュー画像を用いてトレーニングされたコンポonentベースのCNNは、元のワイルド画像を用いてトレーニングされた標準CNNよりも高い正確性を達成した。
本手法は実世界のデータにおいて強い汎化性能を示し、低解像度や部分的隠蔽がある画像に対しても有効であった。
明示的な3D情報を利用しないにもかかわらず、2Dベースおよび3Dベースの顔再構築手法を上回る顔認証の正確性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。