QUICK REVIEW

[論文レビュー] Not Afraid of the Dark: NIR-VIS Face Recognition via Cross-spectral Hallucination and Low-rank Embedding

José Lezama, Qiang Qiu|arXiv (Cornell University)|Nov 21, 2016

Face recognition and analysis参考文献 38被引用数 19

ひとこと要約

本論文は、再訓練を伴わずに、事前学習済み可視スペクトル（VIS）ディープフェイス認識モデルが近赤外（NIR）画像と効果的に連携できるようにする手法を提案する。クロススペクトルハロシネーション（NIR入力を用いてCNNで合成VIS顔を生成する手法）と低ランク埋め込みを組み合わせ、CASIA NIR-VIS v2.0でSOTAの96.41％のランク1正答率を達成した。

ABSTRACT

Surveillance cameras today often capture NIR (near infrared) images in low-light environments. However, most face datasets accessible for training and verification are only collected in the VIS (visible light) spectrum. It remains a challenging problem to match NIR to VIS face images due to the different light spectrum. Recently, breakthroughs have been made for VIS face recognition by applying deep learning on a huge amount of labeled VIS face samples. The same deep learning approach cannot be simply applied to NIR face recognition for two main reasons: First, much limited NIR face images are available for training compared to the VIS spectrum. Second, face galleries to be matched are mostly available only in the VIS spectrum. In this paper, we propose an approach to extend the deep learning breakthrough for VIS face recognition to the NIR spectrum, without retraining the underlying deep models that see only VIS faces. Our approach consists of two core components, cross-spectral hallucination and low-rank embedding, to optimize respectively input and output of a VIS deep model for cross-spectral face recognition. Cross-spectral hallucination produces VIS faces from NIR images through a deep learning approach. Low-rank embedding restores a low-rank structure for faces deep features across both NIR and VIS spectrum. We observe that it is often equally effective to perform hallucination to input NIR images or low-rank embedding to output deep features for a VIS deep model for cross-spectral recognition. When hallucination and low-rank embedding are deployed together, we observe significant further improvement; we obtain state-of-the-art accuracy on the CASIA NIR-VIS v2.0 benchmark, without the need at all to re-train the recognition system.

研究の動機と目的

限られたNIR学習データを踏まえ、NIR顔画像とVIS顔ギャラリーの照合を困難にする課題に対処する。
SOTAのVIS顔認識モデルが微調整なしにNIRに一般化できるようにすること。
VISとNIRの間のスペクトルドメインシフトを、事前学習済みVISDNNの入力および出力を変更することで克服すること。
モデルの性能を維持しつつ、クロススペクトル認識へ拡張できる転移学習フレームワークを開発すること。

提案手法

入力NIR画像から顔の詳細を保持した高解像度の可視スペクトル顔を生成する、パッチベースのCNNを用いてハロシネーションを実行する。
学習されたブレンドパラメータ（α ≈ 0.6–0.7）を用いて、ハロシネートされた輝度チャンネルと元のNIR画像をブレンドし、アーチファクトを低減する。
ハロシネートされたVIS入力に対して、事前学習済みVISDNN（例：VGG-S、VGG-face、COTS）を固定された特徴抽出器として使用する。
DNNの深層特徴（直前層）に対して低ランク変換を適用し、NIRおよびVISスペクトル間で共通の低次元部分空間を強制する。
同じ被験者間の特徴を一致させ、異なる被験者の特徴を分離する1024×1024の低ランク埋め込み行列を学習する。
ギャラリー（VIS）とプローブ（NIR、ハロシネーションおよび埋め込み処理済み）の特徴間の類似度としてコサイン類似度を用いる。

実験結果

リサーチクエスチョン

RQ1再訓練を伴わず、事前学習済みVIS顔認識モデルをNIR顔認識に効果的に適応できるか？
RQ2NIR画像をVIS空間にクロススペクトルハロシネーションすることで、顔認識性能が顕著に向上するか？
RQ3NIRおよびVISスペクトル間でDNN特徴の低ランク埋め込みを適用することで、クロススペクトル特徴の一致が向上するか？
RQ4ハロシネーションと低ランク埋め込みの併用効果は、認識正答率にどのように寄与するか？
RQ5ハロシネーションのブレンドパラメータ（α）およびモデル選択の変動に対して、本手法はどれほど頑健か？

主な発見

提案手法は、CASIA NIR-VIS v2.0ベンチマークで96.41％のランク1正答率を達成し、新たなSOTAを樹立した。
クロススペクトルハロシネーションのみを適用すると、VGG-Sでランク1正答率が75.04％から95.72％に向上し、顕著な性能向上が確認された。
低ランク埋め込みのみを適用すると、VGG-Sで正答率が57.53％から82.07％に上昇し、特徴空間の一致に有効であることが示された。
ハロシネーションと低ランク埋め込みの併用により、COTSで最高の向上が得られ、96.41％のランク1正答率を達成した。
ハロシネート画像再構成の最適なブレンドパラメータαは約0.6–0.7であり、詳細の保持とアーチファクト低減のバランスが取れている。
本手法はモデルに依存せず、さまざまな事前学習済みVISDNN（VGG-S、VGG-face、COTS）で効果的に動作し、汎用性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。