QUICK REVIEW

[論文レビュー] Robust and High Performance Face Detector

Yundong Zhang, Xiang Xu|arXiv (Cornell University)|Jan 6, 2019

Face recognition and analysis参考文献 39被引用数 23

ひとこと要約

本稿では、DenseNet-121をバックボーンとして採用し、データアノテーションサンプリングによるデータオーグメンテーション、マックスインアウトラベルおよびアノテーションマッチング、アテンションメカニズムを統合した、頑健で高性能な顔検出器VIM-FDを提案する。WIDER FACEベンチマークにおいて、Easy、Medium、Hardサブセットでそれぞれ96.7%、95.7%、90.7%のAPを達成し、特に小規模および部分的遮蔽を受けた顔に対して優れた精度を示した。

ABSTRACT

In recent years, face detection has experienced significant performance improvement with the boost of deep convolutional neural networks. In this report, we reimplement the state-of-the-art detector SRN and apply some tricks proposed in the recent literatures to obtain an extremely strong face detector, named VIM-FD. In specific, we exploit more powerful backbone network like DenseNet-121, revisit the data augmentation based on data-anchor-sampling proposed in PyramidBox, and use the max-in-out label and anchor matching strategy in SFD. In addition, we also introduce the attention mechanism to provide additional supervision. Over the most popular and challenging face detection benchmark, i.e., WIDER FACE, the proposed VIM-FD achieves state-of-the-art performance.

研究の動機と目的

顔のスケール、ポーズ、遮蔽、照明の極端な変動に起因する検出の難易度を克服し、検出器の頑健性を向上させること。
最近のデータオーグメンテーション、アノテーションマッチング、アテンションメカニズムの進展を統合することで、顔検出性能を向上させること。
特に小規模および検出が困難な顔に対して、WIDER FACEベンチマークにおける精度と一般化性能を最適化すること。
最新の検出器[1]を現代的な技術で再実装・最適化し、優れた性能を達成すること。
分類、回帰、アテンションの監視を統合的に最適化するエンドツーエンドで学習可能な統合的顔検出器を構築すること。

提案手法

特徴の密な伝達と勾配の流れの利点を活かし、表現学習の向上を図るために、DenseNet-121をバックボーンネットワークとして採用する。
顔とアノテーションのスケールの類似度に基づいて動的に画像サイズを変更するデータアノテーションサンプリングによるオーグメンテーションを実装し、学習中のスケール分布の多様性を高める。
正例選択の精度を向上させ、難易度の高い例における誤分類を低減するために、マックスインアウトラベル割り当てとアノテーションマッチング戦略を適用する。
背景ノイズを抑制し、遮蔽や低品質な顔の特徴学習を強化するために、アノテーションレベルにアテンションメカニズムを統合する。
分類、回帰、アテンションマップ予測を同時に最適化する3本のブランチアーキテクチャを設計：STC（第1段階分類器）、STR（第1段階回帰器）、予測サブネット。
分類（STC）、回帰（STR）、アテンション（ATT）の損失を統合したハイブリッド損失関数を用いてモデルを最適化し、マルチタスク監視によるエンドツーエンド学習を可能にする。

実験結果

リサーチクエスチョン

RQ1データアノテーションサンプリングの統合が、多様なスケールにおいて一般化性能と頑健性をどのように向上させるか？
RQ2DenseNet-121をバックボーンとして用いることで、WIDER FACEデータセット上での検出精度が他のアーキテクチャと比較してどの程度向上するか？
RQ3マックスインアウトアノテーションマッチング戦略が正例選択をどのように改善し、誤検出を低減するか？
RQ4アテンションメカニズムが遮蔽や低品質な顔の検出性能をどの程度向上させるか？
RQ5複数の先進的技術の組み合わせが、WIDER FACEベンチマークでSOTA性能を達成するにあたり、どの程度の貢献を果たすか？

主な発見

VIM-FDはWIDER FACEバリデーションセットのEasyサブセットで96.7%の平均精度（AP）を達成し、すべての先行手法を上回った。
VIM-FDはMediumサブセットで95.7%のAPを達成し、最高性能を示した手法（DSFD）と同等の性能を示したが、より優れた頑健性と一般化性能を兼ね備えていた。
VIM-FDはHardサブセットで90.7%のAPを達成し、比較されたすべての手法の中で最高を記録し、小規模および遮蔽を受けた顔の検出性能が顕著に優れていた。
可視化結果から、VIM-FDは世界最大のセルフィー写真に含まれる1000枚中の890枚の顔を正しく検出できており、実世界における強い頑健性を確認した。
WIDER FACE上のブラー、表情、照明、化粧、遮蔽、ポーズといった多様な属性にわたる一般化性能が優れており、可視化結果から明らかになった。
広範なアブレーション実験により、各構成要素（データオーグメンテーション、バックボーン選択、アノテーションマッチング、アテンション）が最終的な性能向上に顕著な寄与をしていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。