QUICK REVIEW

[論文レビュー] Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition

Ran He, Xiang Wu|arXiv (Cornell University)|Aug 8, 2017

Face recognition and analysis参考文献 48被引用数 29

ひとこと要約

本稿では、モダリティ固有の特徴分布間のワサーライン距離を同時に最小化し、過学習を軽減するための低ランク制約を適用する、NIR-VIS顔認識のための新規な深層学習フレームワーク、ワサーラインCNN（WCNN）を提案する。エンドツーエンドの学習によりモダリティ不変特徴を学習することで、3つのベンチマークデータベースにおいて最先端の性能を達成し、低ランク正則化を組み合わせた場合、BUAA NIR-VISデータセットで97.4%のランク1正答率を達成した。

ABSTRACT

Heterogeneous face recognition (HFR) aims to match facial images acquired from different sensing modalities with mission-critical applications in forensics, security and commercial sectors. However, HFR is a much more challenging problem than traditional face recognition because of large intra-class variations of heterogeneous face images and limited training samples of cross-modality face image pairs. This paper proposes a novel approach namely Wasserstein CNN (convolutional neural networks, or WCNN for short) to learn invariant features between near-infrared and visual face images (i.e. NIR-VIS face recognition). The low-level layers of WCNN are trained with widely available face images in visual spectrum. The high-level layer is divided into three parts, i.e., NIR layer, VIS layer and NIR-VIS shared layer. The first two layers aims to learn modality-specific features and NIR-VIS shared layer is designed to learn modality-invariant feature subspace. Wasserstein distance is introduced into NIR-VIS shared layer to measure the dissimilarity between heterogeneous feature distributions. So W-CNN learning aims to achieve the minimization of Wasserstein distance between NIR distribution and VIS distribution for invariant deep feature representation of heterogeneous face images. To avoid the over-fitting problem on small-scale heterogeneous face data, a correlation prior is introduced on the fully-connected layers of WCNN network to reduce parameter space. This prior is implemented by a low-rank constraint in an end-to-end network. The joint formulation leads to an alternating minimization for deep feature representation at training stage and an efficient computation for heterogeneous data at testing stage. Extensive experiments on three challenging NIR-VIS face recognition databases demonstrate the significant superiority of Wasserstein CNN over state-of-the-art methods.

研究の動機と目的

異種顔認識（HFR）における大きなクラス内変動と限られたペアドトレーニングサンプルの課題に対処すること。特に、近赤外（NIR）と可視（VIS）顔画像間のマッチングに焦点を当てる。
NIRとVIS顔画像の間のギャップを埋めるモダリティ不変の深層特徴を学習すること。
小規模なNIR-VISデータセット上で訓練された深層モデルの過学習を、全結合層における低ランク相関事前分布を用いて軽減すること。
特徴表現とモダリティ間の分布整合性の両方を同時に最適化するエンドツーエンドで学習可能なフレームワークの開発

提案手法

WCNNは、3つのハイレベルなコンponentsを持つ共有ネットワークアーキテクチャを採用する：モダリティ固有のNIRブランチ、モダリティ固有のVISブランチ、および共有のモダリティ不変特徴層。
共有層は、NIRおよびVIS画像の特徴分布間のワサーライン距離を最小化するように訓練され、分布整合性を促進し、センシングギャップを低減する。
全結合層に相関事前分布を用いて低ランク制約を適用し、パラメータ空間を削減し、小規模データセットでの過学習を防止する。
連続最小化を用いて共同最適化を実現し、効率的なエンドツーエンドのトレーニングと推論を可能にする。
ネットワークは大規模なVIS顔データで事前学習され、ペアドNIR-VISデータで微調整され、アイデンティティに敏感な特徴を転送する。
本手法は、CASIA、BUAA、MSU-MFVの3つの挑戦的なNIR-VISデータベースを用い、標準的なプロトコルで評価された。

実験結果

リサーチクエスチョン

RQ1ワサーライン距離が、深層学習フレームワーク内でのNIRとVIS顔特徴の分布ギャップを効果的に低減できるか？
RQ2全結合層に低ランク制約を組み込むことで、小規模なNIR-VISデータセットにおける一般化性能がどのように向上するか？
RQ3分布整合性と特徴学習のエンドツーエンドで共同最適化するアプローチが、段階的または別個のトレーニング戦略を上回るか？
RQ41つの共有ネットワークアーキテクチャが、クロスモダリティ顔認識のためのモダリティ固有特徴とモダリティ不変特徴の両方を効果的に学習できるか？
RQ5分布整合性（ワサーラインを用いて）とパラメータ正則化（低ランクを用いて）の相対的寄与度は、認識正答率の向上にどのように寄与しているか？

主な発見

BUAA NIR-VISデータベースでは、低ランク制約を適用したWCNNが、97.4%のランク1正答率を達成し、前回の最良手法（IDR+低ランク：94.8%）を顕著に上回った。
FAR=0.1%の条件下で、WCNN+低ランクの認証率は91.9%に達したのに対し、ベースライン手法H2(LBP3)は73.4%であった。
低ランク制約の導入により過学習が軽減されたことが、行列M^T Mの相関構造の観点から裏付けられた。正則化後、ブランチ間の相関が強くなった。
ROC曲線は、WCNN+低ランクが、特に低誤報率領域で、すべてのベースラインを一貫して上回ることを示した。
アブレーションスタディにより、ワサーライン距離と低ランク正則化の両方が不可欠であることが確認された。両者の組み合わせが最高のパフォーマンスをもたらし、相乗効果があることが示された。
本手法は、3つのベンチマークデータベースすべてで最先端の結果を達成し、多様なデータ分布にわたる一般化性と頑健性を検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。