[論文レビュー] Deep Perceptual Mapping for Thermal to Visible Face Recognition
本稿では、可視画像から赤外線画像への非線形写像を学習する深層ニューラルネットワーク手法であるDeep Perceptual Mapping (DPM)を提案する。この手法により、クロススペクトル顔認識における大きなモダリティギャップを埋め、識別情報の保持を図ることで、挑戦的なUND-X1データセット上でRank-1識別性能を10%以上向上させ、モダリティ差による性能低下を40%以上低減した。
Cross modal face matching between the thermal and visible spectrum is a much de- sired capability for night-time surveillance and security applications. Due to a very large modality gap, thermal-to-visible face recognition is one of the most challenging face matching problem. In this paper, we present an approach to bridge this modality gap by a significant margin. Our approach captures the highly non-linear relationship be- tween the two modalities by using a deep neural network. Our model attempts to learn a non-linear mapping from visible to thermal spectrum while preserving the identity in- formation. We show substantive performance improvement on a difficult thermal-visible face dataset. The presented approach improves the state-of-the-art by more than 10% in terms of Rank-1 identification and bridge the drop in performance due to the modality gap by more than 40%.
研究の動機と目的
- スペクトル領域間の大きなモダリティギャップのため、赤外線から可視顔認識において顕著な性能低下が生じる問題に対処すること。
- 赤外線撮影が用いられるが、可視データベースとの照合が求められる、密かに夜間の監視を行う実用的ソリューションの開発。
- アクティブな照明を必要とする近赤外線(NIR)や短波赤外線(SWIR)から可視へのマッピングに特化した従来手法の限界を克服し、密かに運用可能な状況に適した手法の開発。
- 深層学習ベースのアプローチを用いて、挑戦的なUND-X1赤外線-可視顔データセットで最先端の性能を達成すること。
- 限定的な訓練データでも実時間での適用が可能で、かつモダリティ間で識別情報が保持される、堅牢で効率的な手法の実証。
提案手法
- 可視画像の密集畳み込み特徴量から対応する赤外線画像への非線形回帰関数を学習するための前向き伝搬型深層ニューラルネットワークを訓練する。
- 可視顔と赤外線顔の外見の複雑な非線形関係をモデル化するため、1つ以上の隠れ層を有する多層パーセプトロン(MLP)アーキテクチャを用いる。
- 再構成誤差を最小化するとともに、判別性の高い特徴表現を維持するようにネットワークを訓練することで、マッピング中に識別情報を保持する。
- 事前学習済みの畳み込みニューラルネットワーク(VGGなど)を用いて可視画像から深層特徴を抽出し、学習済みのDPMネットワークを介してそれらを赤外線ドメインに投影する。
- テスト時にDPMネットワークを適用し、プローブの可視特徴量を赤外線ドメインにマッピングし、標準的なコサイン類似度または分類手法によるクロスモダリティマッチングを可能にする。
- 特徴量のマッピングが真値の赤外線特徴量に密接に類似するよう促進する再構成損失関数を用いて、エンドツーエンドの誤差逆伝播でネットワークを最適化する。
実験結果
リサーチクエスチョン
- RQ1深層ニューラルネットワークは、可視顔と赤外線顔画像間の非線形マッピングを効果的に学習でき、モダリティギャップを低減できるか?
- RQ2このようなマッピングは、スペクトル差が顕著な実世界のデータセット上で、クロススペクトル顔認識性能をどの程度向上させられるか?
- RQ3提案されたディープパーセプチュアルマッピング手法により、モダリティギャップに起因する性能低下の何パーセントを埋め合わせられるか?
- RQ41人1人の被験者に対して1枚または2枚程度の可視画像しか利用しないような、比較的スパarsなデータでトレーニングされた場合でも、この手法は頑健か?
- RQ5最小限の計算負荷で実時間アプリケーションに展開可能か?
主な発見
- 提案されたDPM手法は、UN-D-X1データセットにおいて、従来の最先端手法と比較してRank-1識別精度を10%以上向上させた。
- モダリティ差に起因する性能低下を40%以上低減し、ベースラインの59%からDPMを用いた場合の34%にまで低下させた。
- 赤外線-赤外線識別タスクでは89.7%のRank-1スコアを達成した一方で、ベースラインの赤外線-可視性能は30.3%にまで低下しており、モダリティギャップの深刻さを示している。
- ギャラリーに被験者1人あたり1枚の可視画像しか使用しない状況でも、DPMベースの手法は55.36%のRank-1精度を達成したのに対し、ベースライン特徴量では30.36%にとどまり、25%の改善が得られた。
- 計算効率が高く、1画像あたりの特徴抽出とマッピングに45msで完了し、実時間推論は約28fpsで実現可能であり、リアルタイム監視に適している。
- DPMアプローチは、赤外線から可視顔認識におけるモダリティギャップを埋めるために深層ニューラルネットワークを効果的に適用した初の手法であり、困難なデータセット上で新たなベンチマークを確立した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。