QUICK REVIEW

[論文レビュー] Reconstruction for Feature Disentanglement in Pose-invariant Face Recognition

Xi Peng, Yu Xiang|arXiv (Cornell University)|Feb 10, 2017

Face recognition and analysis参考文献 43被引用数 18

ひとこと要約

本論文は、正面画像から非正面ビューを合成するネットワークを用いて、ポーズ不変の顔認識を実現する手法を提案する。多様なタスクを統合した深層ニューラルネットワーク（DNN）により、アイデンティティとポーズの特徴を学習し、シアンプソンネットワークを用いてアイデンティティとポーズの特徴を分離する。本手法は、MultiPIE、LFW、300WLPなどのデータセットにおいて、特に大規模なポーズ変動に対して最先端の性能を達成した。

ABSTRACT

Deep neural networks (DNNs) trained on large-scale datasets have recently achieved impressive improvements in face recognition. But a persistent challenge remains to develop methods capable of handling large pose variations that are relatively under-represented in training data. This paper presents a method for learning a feature representation that is invariant to pose, without requiring extensive pose coverage in training data. We first propose to use a synthesis network for generating non-frontal views from a single frontal image, in order to increase the diversity of training data while preserving accurate facial details that are critical for identity discrimination. Our next contribution is a multi-source multi-task DNN that seeks a rich embedding representing identity information, as well as information such as pose and landmark locations. Finally, we propose a Siamese network to explicitly disentangle identity and pose, by demanding alignment between the feature reconstructions through various combinations of identity and pose features obtained from two images of the same subject. Experiments on face datasets in both controlled and wild scenarios, such as MultiPIE, LFW and 300WLP, show that our method consistently outperforms the state-of-the-art, especially on images with large head pose variations.

研究の動機と目的

トレーニングデータに十分に表現されていない大規模なポーズ変動下での顔認識の課題に対処すること。
広範なポーズアノテーションを必要としないで、ポーズに不変な特徴表現を開発すること。
データ拡張中にアイデンティティ識別に不可欠な高精細な顔の詳細を保持すること。
マルチタスクディープネットワークを用いて、同時にアイデンティティ、ポーズ、ランドマーク特徴を学習すること。
シアンプソンネットワークを用いてアイデンティティとポーズ特徴を明示的に分離し、ポーズ変化に対する耐性を向上させること。

提案手法

単一の正面入力からリアルな非正面顔画像を生成する合成ネットワークを用い、トレーニングデータの多様性を向上させること。
顔の特徴からアイデンティティ、ポーズ、ランドマーク位置を同時に予測するマルチソースマルチタスクディープニューラルネットワークを訓練すること。
同じ被験者の2枚の画像からのアイデンティティとポーズ特徴を組み合わせて、特徴再構成を一致させるシアンプソンネットワークを設計すること。
アイデンティティ特徴を共有するがポーズ特徴が異なる場合に一貫した再構成が要求されるようにすることで、分離を強制すること。
分離された特徴を活用し、推論時に未観測のポーズ変動への一般化を向上させること。
再構成、分類、対照的損失の複合的な目的関数を用いて、パイプライン全体をエンド・トゥ・エンドで最適化すること。

実験結果

リサーチクエスチョン

RQ1単一の正面画像からのデータ合成が、大規模なポーズ変動に対する耐性向上に有効にトレーニングデータを拡張できるか？
RQ2マルチタスクネットワークがアイデンティティ、ポーズ、ランドマーク特徴を同時に学習しつつ、分離を維持できる程度はどの程度か？
RQ3シアンプソンネットワークによる明示的な特徴分離が、ポーズ不変顔認識のパフォーマンス向上に寄与するか？
RQ4本手法は、顔のポーズ変動が顕著なデータセットにおいて、最先端の手法と比較してどの程度優れているか？
RQ5本モデルは、ポーズ変動が極めて大きく多様な非制約的（ワイルド）な環境にも一般化可能か？

主な発見

提案手法は、特に大規模なポーズ変動に対して、MultiPIEデータセットで最先端の性能を達成した。
LFWデータセットでは、ゼロショットポーズ一般化において、既存手法を上回る強力な一般化性能を示した。
300WLPデータセットの結果は、非制約的で現実世界のポーズ変動に対する改善された耐性を確認した。
シアンプソンネットワークの分離機構は、特にポーズが大きく変化する状況で特徴の質を顕著に向上させた。
合成ネットワークはアイデンティティに不可欠な細かな顔のディテールを保持しており、生成モデルで一般的なぼやけや歪みを回避した。
マルチタスク学習フレームワークにより、アイデンティティ、ポーズ、ランドマーク予測の間で特徴を共有することで、より良い特徴学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。