[論文レビュー] Thermal to Visible Face Recognition Using Deep Autoencoders
本稿では、赤外線と可視光画像の間の非線形写像を学習するための深層畳み込み自己符号化器ベースの手法を提案する。U-Netアーキテクチャとアップ畳み込み復元、DoG前処理、顔の特徴点アラインメントを活用することで、Carlデータセットでは14%、UND-X1データセットでは3.5%のランク1精度向上を達成し、最先端性能を実現した。
Visible face recognition systems achieve nearly perfect recognition accuracies using deep learning. However, in lack of light, these systems perform poorly. A way to deal with this problem is thermal to visible cross-domain face matching. This is a desired technology because of its usefulness in night time surveillance. Nevertheless, due to differences between two domains, it is a very challenging face recognition problem. In this paper, we present a deep autoencoder based system to learn the mapping between visible and thermal face images. Also, we assess the impact of alignment in thermal to visible face recognition. For this purpose, we manually annotate the facial landmarks on the Carl and EURECOM datasets. The proposed approach is extensively tested on three publicly available datasets: Carl, UND-X1, and EURECOM. Experimental results show that the proposed approach improves the state-of-the-art significantly. We observe that alignment increases the performance by around 2%. Annotated facial landmark positions in this study can be downloaded from the following link: github.com/Alpkant/Thermal-to-Visible-Face-Recognition-Using-Deep-Autoencoders .
研究の動機と目的
- 低照度条件下における可視光顔認識の低性能問題を赤外線画像を用いて解決する。
- 赤外線と可視光顔領域の間の非線形写像を学習し、クロスドメインマッチングを可能にする。
- 顔のアラインメントと前処理が認識精度に与える影響を調査する。
- 赤外線から可視光への顔認識ベンチマークで最先端性能を向上させる。
- 今後の赤外線顔特徴点検出研究を支援するため、赤外線顔画像にアノテーションされた顔の特徴点を提供する。
提案手法
- パrameter数を削減し、学習効率を向上させるために、512チャネルと14×14のボトルネック層を備えた変更済みU-Netアーキテクチャを採用する。
- 二つの復元戦略を採用:双線形補間と2×2フィルタを用いた転置(アップ)畳み込みを用いて、可視入力から赤外線画像を再構築する。
- 生成された赤外線画像と正解画像の間の再構築誤差を最小化するため、平均二乗誤差(MSE)損失関数を適用する。
- ダウンサンプリングによる可視画像の赤外線解像度への一致と、Difference of Gaussians(DoG)フィルタリングを含む前処理ステップを統合する。
- CarlおよびEURECOMデータセットの手動アノテーション済み顔の特徴点(6点:両目と口の端)を用いて顔のアラインメントを実施する。
- 初期学習率0.01でAdam最適化手法を用い、検証誤差が変化しなくなった場合に学習率を半減し、バッチサイズ32で自己符号化器を学習する。
実験結果
リサーチクエスチョン
- RQ1深層畳み込み自己符号化器は、赤外線と可視光顔画像の間の非線形写像を効果的に学習できるか?
- RQ2顔のアラインメントは、赤外線から可視光への顔マッチングにおける認識精度にどのように影響するか?
- RQ3DoGフィルタリングや解像度一致といった前処理技術の貢献度は何か?
- RQ4補間法の選択(双線形補間対比転置畳み込み)は、再構築品質と認識精度にどのように影響するか?
- RQ5提案手法は、ベンチマークデータセットにおいて、既存の最先端手法をどの程度上回るか?
主な発見
- 全被験者分の可視画像をギャラリーに含めた場合、Carlデータセットで85%のランク1精度を達成し、前回の最先端手法比で14%の絶対的向上を示した。
- UND-X1データセットでは、DoGフィルタリングとアップ畳み込みを適用した場合、ランク1精度が87.2%に達し、前回の最先端手法比で3.5%の絶対的向上を示した。
- アラインメントは全データセットで約2%の認識精度向上をもたらし、特に2/被験者および全/被験者ギャラリー設定で最も顕著な向上が観察された。
- アップ畳み込み復元は、双線形補間を常に上回り、Carlデータセットでは最大4%の精度向上を達成した。
- DoGフィルタリングと解像度一致を組み合わせた前処理は性能を顕著に向上させ、すべての前処理、アラインメント、アップ畳み込みを適用した際が最良の結果を出した。
- 可視画像の再構築結果から、正しくマッチした被験者に対してはリアルな赤外線風の画像が生成されている一方、再構築の失敗は分類エラーと相関していた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。