[論文レビュー] Deep Joint Face Hallucination and Recognition
本論文は、顔のスーパーレゾリューションと認識を同時に実行するエンドツーエンドのディーブ・コンボリューショナルネットワークを提案する。段階的なアーキテクチャを用いて、両タスクを同時に学習する。訓練中にスーパーレゾリューションと認識の両方の損失を最適化することで、4倍ダウンサンプルされたLFWでは97.95%、YTFでは90.65%の精度を達成し、単体の認識モデルや顔のスーパーレゾリューションのみを微調整する手法を上回る。これは、共同学習が分離学習や事前学習済みのSRネットワークを特徴抽出器として用いる場合よりも認識性能を向上させることを示している。
Deep models have achieved impressive performance for face hallucination tasks. However, we observe that directly feeding the hallucinated facial images into recog- nition models can even degrade the recognition performance despite the much better visualization quality. In this paper, we address this problem by jointly learning a deep model for two tasks, i.e. face hallucination and recognition. In particular, we design an end-to-end deep convolution network with hallucination sub-network cascaded by recognition sub-network. The recognition sub- network are responsible for producing discriminative feature representations using the hallucinated images as inputs generated by hallucination sub-network. During training, we feed LR facial images into the network and optimize the parameters by minimizing two loss items, i.e. 1) face hallucination loss measured by the pixel wise difference between the ground truth HR images and network-generated images; and 2) verification loss which is measured by the classification error and intra-class distance. We extensively evaluate our method on LFW and YTF datasets. The experimental results show that our method can achieve recognition accuracy 97.95% on 4x down-sampled LFW testing set, outperforming the accuracy 96.35% of conventional face recognition model. And on the more challenging YTF dataset, we achieve recognition accuracy 90.65%, a margin over the recognition accuracy 89.45% obtained by conventional face recognition model on the 4x down-sampled version.
研究の動機と目的
- 改善された視覚的品質にもかかわらず、生成された低解像度(LR)顔画像が認識性能を低下させるという問題に対処すること。
- 1つのエンドツーエンドのディープニューラルネットワーク内で顔のスーパーレゾリューションと認識を共同最適化し、学習中に相互フィードバックを可能にすること。
- スーパーレゾリューションの出力を中間特徴として用いて、識別的表現学習のための特徴を学習することで、低解像度顔画像の認識精度を向上させること。
- 共同学習が分離学習や事前学習済みのSRネットワークを特徴抽出器として用いる場合よりも、スーパーレゾリューションおよび認識性能を向上させることを実証すること。
提案手法
- 低解像度(LR)入力をまず高解像度(HR)に向上させるスーパーレゾリューションサブネットワークと、その後に続く認識サブネットワークを段階的に接続したエンドツーエンドのCNNを設計。
- 二本のスレッド損失関数を用いる:(1) 生成されたHR画像と正解HR画像のピxls単位のL2損失(スーパーレゾリューション用)、(2) 特徴空間における分類誤差とクラス内距離に基づく統合認識損失。
- 深層特徴空間におけるクラス内分散の最小化とクラス間分離の最大化を実現するため、センター損失の定式化を認識損失に適用。
- LR-CASIA画像を入力とし、HR-CASIA画像をターゲットとし、識別ラベルを監視信号として用いて、ネットワーク全体をエンドツーエンドで学習。
- スーパーレゾリューション損失と認識損失の重み付き和を用い、ハイパーパramータ α=0.01、β₁=1、β₂=0.008 でタスクの目的をバランスさせる。
- 1台のTITAN X GPUを用い、28,000エポック分の学習を実施。16,000および24,000イテレーション目で学習率を段階的に低下。
実験結果
リサーチクエスチョン
- RQ1顔のスーパーレゾリューションと認識ネットワークを共同で学習することで、分離学習した場合と比較して、低解像度顔画像の認識精度が向上するか?
- RQ2深層ネットワークによって生成された顔画像を認識モデルの入力として用いることで、認識性能が向上するか?
- RQ3エンドツーエンドの共同最適化は、事前学習済みのスーパーレゾリューションネットワークを特徴抽出器として用いる場合と比較して、より優れたスーパーレゾリューション品質と認識精度を達成するか?
- RQ4LFWおよびYTFデータセットのダウンサンプル版に対してテストした場合、共同モデルは従来の顔認識モデルと比較してどのように差をつけるか?
主な発見
- 4倍ダウンサンプルされたLFWデータセットにおいて、共同モデルは97.95%の認識精度を達成し、単体の認識モデルの96.35%を上回った。
- より困難なYTFデータセットでは、共同モデルが90.65%の精度を達成し、同様の低解像度テストセットで従来モデルの89.45%を上回った。
- 生成画像を用いて認識ネットワークを学習する設定(LFWで97.61%)よりも優れた性能を示したため、共同学習がより良い一般化性能をもたらすことが確認された。
- スタンドアロンのSRCNNやSRNETよりもわずかに優れたスーパーレゾリューション結果を達成し、CASIA-WebFaceデータセットでPSNRが0.01 dB向上した。
- LR-YTFにおける認識性能は、生成画像を用いた学習(88.20%)から共同学習(90.95%)に改善され、共同最適化が特徴の識別性を高めることを示した。
- アブレーションスタディにより、事前学習済みのSRネットワークから生成された画像を用いることで認識性能が低下することが判明(LR-LFWで96.30% vs. 96.35%)、共同学習の必要性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。