[論文レビュー] Occlusion Robust Face Recognition Based on Mask Learning with PairwiseDifferential Siamese Network
本論文は、遮蔽によって破損される深層CNN特徴を学習するPairwise Differential Siamese Network (PDSN)を提案し、Feature Discarding Masks (FDM)のマスク辞書を構築し、これらのマスクを適用して遮蔽に頑健な顔認識を実現する。
Deep Convolutional Neural Networks (CNNs) have been pushing the frontier of the face recognition research in the past years. However, existing general CNN face models generalize poorly to the scenario of occlusions on variable facial areas. Inspired by the fact that a human visual system explicitly ignores occlusions and only focuses on non-occluded facial areas, we propose a mask learning strategy to find and discard the corrupted feature elements for face recognition. A mask dictionary is firstly established by exploiting the differences between the top convoluted features of occluded and occlusion-free face pairs using an innovatively designed Pairwise Differential Siamese Network (PDSN). Each item of this dictionary captures the correspondence between occluded facial areas and corrupted feature elements, which is named Feature Discarding Mask (FDM). When dealing with a face image with random partial occlusions, we generate its FDM by combining relevant dictionary items and then multiply it with the original features to eliminate those corrupted feature elements. Comprehensive experiments on both synthesized and realistic occluded face datasets show that the proposed approach significantly outperforms the state-of-the-arts.
研究の動機と目的
- 遮蔽領域が深層特徴を劣化させるランダムな部分遮蔽下での頑健な顔認識を目指す。
- Pairwise Differential Siamese Networkを用いて、遮蔽された顔ブロックと損傷したCNN特徴の間の対応を学習する。
- テスト時に破損した特徴を除去するためのFeature Discarding Masks (FDM)のマスク辞書を構築する。
- 合成および実在の遮蔽顔データセットで遮蔽に対する頑健性と一般化を示す。
- 遮蔽された特徴をマスキングしても非遮蔽顔での性能低下が生じず、遮蔽状況を改善することを示す。
提案手法
- 整列された顔をN×Nブロックに分割して遮蔽効果を局所化する。
- ArcFaceを backingとしたトランクCNNとマスク発生器 M_theta を用いて上位畳み込み特徴の要素-wiseマスクを生成する: f̃ = M_theta(·) f。
- L_theta の結合損失で学習: L_theta = sum_i L_cls( f̃(x_j^i), y^i ) + lambda L_diff( f̃(x_j^i), f̃(x^i) ), ここで L_diff はマスク済み特徴に対するペアワイズコントラスト損失。
- L_diff = || M_theta(·) f(x^i) − M_theta(·) f(x_j^i) ||_1、マスク済み遮蔽特徴を非遮蔽の対応と整合させるよう促す。
- 段階的訓練: (1) CASIA-WebFaceでトランクCNNを訓練; (2) 遮蔽ペアでブロック固有のマスク発生器を訓練; (3) 多数の遮蔽サンプルの平均マスクを2値化してマスク辞書を構築。
- マスク辞書を構築: ブロック j ごとに約200kペアで平均マスク m̄_j を計算し、最小の τ*K 値を捨てて2値化して M_j とする(K = C×W×H)。
- テスト時の遮蔽: 遮蔽ブロックに対応する M_j マスクをAND結合して探査用の FDM M を導出し、比較前に上位畳み込み特徴に M を適用する。
実験結果
リサーチクエスチョン
- RQ1顔ブロックが遮蔽されるとき、CNN のどの特徴要素が破損しているかをどう特定できるか。
- RQ2対となる遮蔽/クリア顔で訓練されたマスク生成モデルは、個人をまたがって遮蔽領域と破損した特徴要素との安定した対応を明らかにできるか。
- RQ3部分的な遮蔽下で、破損した特徴を除去することが非遮蔽時の性能を損なうことなく認識性能を向上させるか。
- RQ4固定マスク辞書は、対になる遮蔽データなしでテスト時の任意の遮蔽に一般化できるか。
主な発見
- 本手法は、合成および実在の遮蔽顔に対して強い遮蔽頑健性を達成し、二値化正則化後に特定の遮蔽タイプでAR rank-1の最高値が98.26%に達する。
- MegaFace Challenge 1で遮蔽プローブデータを用いた場合、提案法はMF1occを56.34%へ向上させ、ベースラインよりも優位。
- LFWでの検証強度を維持または向上させ、ARデータセットで実生活遮蔽(サングラスやスカーフなど)に対する耐性がトランクCNNベースラインより優れている。
- 差分監督戦略(ペアワイズ損失と分類損失の組み合わせ)は、分類損失だけを用いるよりも安定で解釈しやすい平均マスクを生み出し、特徴マップ内の遮蔽定位を高める。
- 二値マスキング(ソフトウェ weighting ではなく)は有利で、より良い性能と効率的な計算・格納利点をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。