QUICK REVIEW

[論文レビュー] Feature Agglomeration Networks for Single Stage Face Detection

Jialiang Zhang, Xiongwei Wu|arXiv (Cornell University)|Dec 3, 2017

Face recognition and analysis参考文献 28被引用数 25

ひとこと要約

本稿では、階層的な「凝集接続」モジュールを用いて高レベルの意味的特徴を低レベルの特徴マップに段階的に統合することで、マルチスケール特徴表現を向上させる、新しい1段階型顔検出器である特徴凝集ネットワーク（FANet）を提案する。本手法は、WIDER FACEのハード、ミディアム、イージー設定において、それぞれ95.6、94.7、89.5のSOTA mAPを達成するとともに、VGA解像度の画像上で35.6 FPSのリアルタイム推論を維持する。

ABSTRACT

Recent years have witnessed promising results of face detection using deep learning. Despite making remarkable progresses, face detection in the wild remains an open research challenge especially when detecting faces at vastly different scales and characteristics. In this paper, we propose a novel simple yet effective framework of "Feature Agglomeration Networks" (FANet) to build a new single stage face detector, which not only achieves state-of-the-art performance but also runs efficiently. As inspired by Feature Pyramid Networks (FPN), the key idea of our framework is to exploit inherent multi-scale features of a single convolutional neural network by aggregating higher-level semantic feature maps of different scales as contextual cues to augment lower-level feature maps via a hierarchical agglomeration manner at marginal extra computation cost. We further propose a Hierarchical Loss to effectively train the FANet model. We evaluate the proposed FANet detector on several public face detection benchmarks, including PASCAL face, FDDB and WIDER FACE datasets and achieved state-of-the-art results. Our detector can run in real time for VGA-resolution images on GPU.

研究の動機と目的

実世界の状況において、顕著に異なるスケールの顔、特に小さな顔を検出する課題に対処すること。
豊富な意味的文脈を有するマルチスケール特徴を効果的に統合することで、1段階型顔検出器における特徴表現を向上させること。
マルチスケール検出に適した安定的かつ効果的なエンドツーエンド学習を可能にする学習スキームを開発すること。
推論速度を犠牲にすることなくSOTAの性能を達成し、リアルタイムデプロイメントを可能にすること。

提案手法

意味的特徴を高レベルから低レベルの高解像度特徴マップに段階的に統合することで文脈理解を向上させる「凝集接続」モジュールを導入する。
FPNがスイープ接続を用いるのに対し、すべてのスケールで意味的豊かさを向上させる新しい階層的特徴ピラミッドを構築する。
複数のレベルで予測を監視することでエンドツーエンド学習を促進するための階層的損失（HL）を採用し、特徴の識別性を向上させる。
深層バックボーン（例：VGG16）を用いて1回の順伝播推論により、マルチスケール特徴を活用しながらもリアルタイム速度を維持する。
推論時にマルチスケールテストを適用することで、特に困難な例（小さな顔）における性能をさらに向上させる。
3段階の階層的損失を用いてエンドツーエンドでモデルを学習させ、スケール間で特徴学習の安定性と向上を図る。

実験結果

リサーチクエスチョン

RQ1単純でありながら効果的な特徴凝集メカニズムは、多様な顔スケールにわたる1段階型顔検出性能を向上させることができるか？
RQ2より深い層からの意味的手がかりを用いた階層的特徴凝集は、小さな顔における検出精度をどのように向上させるか？
RQ3階層的損失のような新規損失関数は、マルチスケール顔検出における学習の安定性と特徴の識別性を向上させることができるか？
RQ4提案されたFANetフレームワークは、WIDER FACE、FDDB、PASCAL FACEといった多様なベンチマークにどの程度一般化可能か？

主な発見

FANetはWIDER FACEハードセットで95.6%のSOTA mAPを達成し、S3FD や Face R-FCN といった先行手法を上回った。
WIDER FACEのバリデーションセットにおいて、ミディアムセットで94.7%、ハードセットで89.5%のmAPを達成し、スケール変動に対する強いロバストネスを示した。
FDDBベンチマークでは、離散的および連続的ROC曲線の両方でSOTA性能を達成し、優れた一般化性能と検出信頼性を示した。
PASCAL FACEデータセットでは、mAPが98.78%に達し、S3FD（98.45%）や他の先行手法を上回った。
NVIDIA GTX 1080Ti GPUを用いてVGA解像度の画像上で35.6 FPSで実行可能であり、リアルタイム推論能力を確認した。
マルチスケールテストにより性能がさらに向上し、特に困難な例において顕著な向上が見られた。最終的な結果は単一スケール推論を大きく上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。