QUICK REVIEW

[論文レビュー] Neural Aggregation Network for Video Face Recognition

Jiaolong Yang, Peiran Ren|arXiv (Cornell University)|Mar 17, 2016

Face recognition and analysis参考文献 42被引用数 45

ひとこと要約

本論文では、二重アテンションメカニズムを用いて可変長の顔映像シーケンスから順序に依存しない適応的特徴集約を学習する、動画顔認識のためのニューラルアグリゲーションネットワーク（NAN）を提案する。標準的な分類または検証損失で訓練されたNANは、IJB-A、YouTube Face、Celebrity-1000でベースライン手法（平均プーリングや最大プーリング含む）を上回り、高品質なフレームを自動で強調し、ノイズの多いフレームを抑制することで、最先端の精度を達成する。

ABSTRACT

This paper presents a Neural Aggregation Network (NAN) for video face recognition. The network takes a face video or face image set of a person with a variable number of face images as its input, and produces a compact, fixed-dimension feature representation for recognition. The whole network is composed of two modules. The feature embedding module is a deep Convolutional Neural Network (CNN) which maps each face image to a feature vector. The aggregation module consists of two attention blocks which adaptively aggregate the feature vectors to form a single feature inside the convex hull spanned by them. Due to the attention mechanism, the aggregation is invariant to the image order. Our NAN is trained with a standard classification or verification loss without any extra supervision signal, and we found that it automatically learns to advocate high-quality face images while repelling low-quality ones such as blurred, occluded and improperly exposed faces. The experiments on IJB-A, YouTube Face, Celebrity-1000 video face recognition benchmarks show that it consistently outperforms naive aggregation methods and achieves the state-of-the-art accuracy.

研究の動機と目的

ポーズ、照明、画質の変動に強く、固定サイズの動画レベル表現を生成する課題に対処すること。
追加の監視情報や固定のヒューリスティクスを必要とせず、フレームレベル特徴を適応的に重み付けするエンドツーエンドで学習可能な集約メカニズムを開発すること。
曇りや遮蔽、露出が悪いフレームを抑制し、高品質で判別力のある顔画像を優遇することで認識精度を向上させること。
1つの固定次元特徴ベクトルとして各動画を表現することで、フレーム間マッチングのO(n²)計算量を削減し、効率的な類似度計算を可能にすること。

提案手法

ネットワークは2つのモジュールから構成される：入力顔画像からフレームレベル特徴を抽出する深層畳み込みニューラルネットワーク（CNN）ベースの特徴埋め込みモジュール。
2段階のアテンションブロックを備えた集約モジュールで、フレームレベル特徴を線形結合して1つのコンactな表現に統合する。
アテンション機構により順序に依存しない性質が実現され、学習された関連スコアに基づき動的に高品質なフレームを強調できる。
追加の監視なしに標準的な分類または検証損失で訓練され、堅牢な特徴集約のエンドツーエンド学習が可能となる。
最終出力は、1つの動画シーケンスを表す固定サイズの128次元特徴ベクトルであり、直接類似度比較に利用可能である。

実験結果

リサーチクエスチョン

RQ1教師なしで、深層ニューラルネットワークが可視フレームのうち高品質な顔画像を自動で特定・強調できるか。
RQ2アテンションベースの集約機構は、標準的なプーリング操作よりもより堅牢で判別力のある動画レベル表現を生成できるか。
RQ3提案手法は、計算およびメモリ効率を維持したまま、動画顔認識ベンチマークで最先端の性能を達成できるか。
RQ4同一被験者の複数動画を統合する際の性能は、単一動画の統合と比較してどのように変化するか。

主な発見

IJB-Aベンチマークでは、NANは動画レベル集約で88.04%のランク1識別精度を達成し、被験者レベル集約では90.44%に上昇し、ベースラインのCNN+AvePool（86.06%および84.46%）を顕著に上回った。
YouTube Faceデータセットでは、NANは動画レベル集約で82.95%のランク1精度、被験者レベル集約で83.33%を記録し、ベースラインのCNN+AvePoolを2ポイント以上上回った。
Celebrity-1000データセットでは、被験者レベル集約によるオープンセットテストでNANは88.76%のランク1精度を達成し、CNN+AvePool（84.11%）や他のベースラインと比較して顕著な改善を示した。
被験者レベル集約戦略により、NANの性能は動画レベル集約に比べ2.4ポイント向上したが、CNN+AvePoolは同様の設定で性能が低下した。これはNANのデータ変動に対する頑健性を示している。
ブレーキや遮蔽のある低品質なフレームを自動で抑制する能力が、すべてのベンチマークで一貫した性能向上をもたらしたことが裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。