QUICK REVIEW

[論文レビュー] Face Recognition Using Deep Multi-Pose Representations

Wael AbdAlmageed, Yue Wua|arXiv (Cornell University)|Mar 23, 2016

Face recognition and analysis参考文献 21被引用数 21

ひとこと要約

この論文では、ポーズ固有の畳み込みニューラルネットワーク（CNN）を用いて、ポーズ変動に対する耐性を高めるための深層マルチポーズ表現を提案している。1枚の画像から複数の3次元レンダリング済み顔ポーズを生成し、専用のCNNで特徴を抽出することで、ドメイン固有のファインチューニングやメトリクス学習を必要とせず、IARPAのCS2およびNISTのIJB-Aベンチマークで最先端の性能を達成した。

ABSTRACT

We introduce our method and system for face recognition using multiple pose-aware deep learning models. In our representation, a face image is processed by several pose-specific deep convolutional neural network (CNN) models to generate multiple pose-specific features. 3D rendering is used to generate multiple face poses from the input image. Sensitivity of the recognition system to pose variations is reduced since we use an ensemble of pose-specific CNN features. The paper presents extensive experimental results on the effect of landmark detection, CNN layer selection and pose model selection on the performance of the recognition pipeline. Our novel representation achieves better results than the state-of-the-art on IARPA's CS2 and NIST's IJB-A in both verification and identification (i.e. search) tasks.

研究の動機と目的

実世界の状況において顕著に性能を低下させるポーズ変動の課題に対処すること。
従来の手法がポーズ変動を暗黙的になぞるのではなく、明示的にモデル化する限界を克服すること。
多様なポーズ条件下で認識精度を向上させるために、複数のポーズ固有の深層特徴を活用する表現フレームワークを開発すること。
ドメイン適応やメトリクス学習を要せず、IJB-AやCS2などのベンチマークデータセットで優れた性能を達成すること。
ランドマーク検出、CNNレイヤー選択、ポーズモデル選択が認識パイプラインの性能に与える影響を調査すること。

提案手法

3次元顔モデリングおよびレンダリング技術を用いて、1枚の入力画像から複数の3次元レンダリング済み顔ポーズを生成する。
フロント、プロファイル、ヨー45°など、各ポーズカテゴリ（例：フロント、サイド、ヨー45°など）に対して、別々の深層CNNモデル（例：AlexNetやVGG19）を訓練し、ポーズ固有の特徴を学習する。
各ポーズ固有のCNNから特徴を抽出し、類似度比較のためのアンサンブル戦略を用いて統合する。
同一ポーズの特徴比較のみを用いて顔認証および識別を実行することで、一貫性を保ち、ポーズ関連の誤差を低減する。
データのキュレーション手順（重複する被験者、画像数が少ない被験者、検出不能な顔の削除）を施したCASIA-WebFaceを訓練に用いる。
評価のために、IJB-A（オープンセット識別および認証）およびCS2（クローズドセット識別）データセットに、マルチポーズ表現を適用する。

実験結果

リサーチクエスチョン

RQ1ポーズ固有のCNNを用いて複数の顔ポーズを明示的にモデル化することで、困難なベンチマークでの認識性能にどのような影響を与えるか？
RQ2ランドマーク検出の品質が、ポーズ推定およびその後の特徴抽出の正確さに与える影響は何か？
RQ3どのCNNレイヤーおよびアーキテクチャ（例：AlexNet対VGG19）がマルチポーズ表現において最も識別性の高い特徴を生み出すか？
RQ4ポーズ表現の数（例：1つ、4つ、5つ）が認識精度に与える影響は何か？
RQ5データに依存しない、即座に利用可能な深層学習パイプラインが、ファインチューニングやメトリクス学習に依存する最先端の手法を上回ることができるか？

主な発見

提案されたマルチポーズ表現は、IJB-AおよびCS2ベンチマークの両方で、単一ポーズCNN表現を顕著に上回った。
5つのポーズタイプ（FF、PF、FY0、FY45、FY75）を用いたクインティプル表現は、IJB-AでFAR=0.01のTARが0.876、CS2で0.897を達成し、先行する最先端手法を上回った。
IJB-Aでは、1:N検索においてRANK@1が0.846、RANK@10が0.947を達成し、RANK@10で過去最高の0.820を上回った。
VGG19ベースのクインティプルモデルは、CS2でFAR=0.10のTARが0.959を達成し、以前のSOTAの0.895を上回った。
ポーズ表現の数が増えるほど性能が一貫して向上し、マルチポーズアンサンブルの利点を裏付けた。
ドメイン固有のファインチューニングやメトリクス学習を一切行わず、最先端の結果を達成したことで、汎用性の高さが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。