QUICK REVIEW

[論文レビュー] Deep Learning Multi-View Representation for Face Recognition

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|Jun 26, 2014

Face recognition and analysis参考文献 20被引用数 26

ひとこと要約

本稿では、決定的および確率的隠れニューロンを用いて顔画像におけるアイデンティティとビュー表現を分離する、深層生成ネットワークであるMulti-View Perceptron (MVP)を提案する。ビューを連続変数としてモデル化することで、1枚の2次元入力から全範囲のマルチビュー画像を生成し、最先端のアイデンティティ認識性能を達成するとともに、未観測の視点に対する補間を可能にする。

ABSTRACT

Various factors, such as identities, views (poses), and illuminations, are coupled in face images. Disentangling the identity and view representations is a major challenge in face recognition. Existing face recognition systems either use handcrafted features or learn features discriminatively to improve recognition accuracy. This is different from the behavior of human brain. Intriguingly, even without accessing 3D data, human not only can recognize face identity, but can also imagine face images of a person under different viewpoints given a single 2D image, making face perception in the brain robust to view changes. In this sense, human brain has learned and encoded 3D face models from 2D images. To take into account this instinct, this paper proposes a novel deep neural net, named multi-view perceptron (MVP), which can untangle the identity and view features, and infer a full spectrum of multi-view images in the meanwhile, given a single 2D face image. The identity features of MVP achieve superior performance on the MultiPIE dataset. MVP is also capable to interpolate and predict images under viewpoints that are unobserved in the training data.

研究の動機と目的

2次元画像において本質的に結合されているアイデンティティとビュー表現を分離する課題に対処すること。
1枚の入力画像から未観測の視点における連続的な顔画像の生成により、人間の多視点認識に類似した性能を実現すること。
分離表現学習によりより判別力のあるアイデンティティ特徴を学習することで、顔認識の精度を向上させること。
訓練中に観測されなかった視点における顔画像の補間および予測を可能にし、人間の推論能力を模倣すること。

提案手法

MVPは2種類の隠れニューロンを使用する：アイデンティティ表現に決定的ニューロン、ビュー表現に確率的ニューロン。
確率的ニューロンは一様事前分布からサンプリングされ、1つの入力から多様なビュー出力を生成可能となる。
正則化項により、類似した視点における画像が類似したビュー表現を持つように保証され、順序付けられたマルチビュー生成が可能となる。
ネットワークは、データの対数尤度に対する変分下界を最大化することでバックプロパゲーションにより訓練される。
学習手順により、確率的モデルにおけるEM更新を標準的な順方向および逆方向伝搬ステップに変換する。
特徴マップに決定的および確率的フィルタを適用することにより、畳み込みアーキテクチャに拡張可能となる。

実験結果

リサーチクエスチョン

RQ13Dの監視情報を必要とせずに、深層ニューラルネットワークが2次元顔画像におけるアイデンティティとビュー表現を分離できるか？
RQ2このようなネットワークが、1枚の入力画像から連続的なマルチビュー顔画像を生成できるか？
RQ3モデルは、訓練時に観測されなかった視点における顔画像を補間および予測できるか？
RQ4分離されたアイデンティティ表現は、顔認識性能の向上に寄与するか？
RQ51枚の2次元画像から、人間の推論に類似した妥当な新しい視点の顔画像を生成できるか？

主な発見

MVPが学習するアイデンティティ特徴は、SOTA手法と比較してMultiPIEデータセットで優れた性能を達成する。
0°、30°、60°の画像で学習した場合、15°や45°などの未観測視点の画像を効果的に再構築する。
モデルは連続的なマルチビュー生成を示し、出力が視点間で滑らかに遷移している。
同じ人物の異なる視点においてアイデンティティ特徴は一貫しており、同じ視点に対して異なる人物間でもビュー特徴が一貫している。
入力が未観測の視点からのものであっても、全範囲のビューを生成可能であり、推論に類似した一般化能力を示している。
確率的ニューロンの使用により、1つの入力から多様で視点に特化した出力を得られ、決定的ニューロンによりアイデンティティの不変性が保持される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。