Skip to main content
QUICK REVIEW

[論文レビュー] Face Detection through Scale-Friendly Deep Convolutional Networks

Shuo Yang, Yuanjun Xiong|arXiv (Cornell University)|Jun 9, 2017
Face recognition and analysis参考文献 21被引用数 115
ひとこと要約

ScaleFaceは、画像ピラミッドを用意することなく、単一のバックボーンに統合されたスケール変動検出器を導入し、広いスケール範囲の顔を検出する際に高い精度と実用的な速度を達成します。スケールを分割し、専門的なネットワーク構造を割り当て、エンドツーエンド訓練のために表現を共有します。

ABSTRACT

In this paper, we share our experience in designing a convolutional network-based face detector that could handle faces of an extremely wide range of scales. We show that faces with different scales can be modeled through a specialized set of deep convolutional networks with different structures. These detectors can be seamlessly integrated into a single unified network that can be trained end-to-end. In contrast to existing deep models that are designed for wide scale range, our network does not require an image pyramid input and the model is of modest complexity. Our network, dubbed ScaleFace, achieves promising performance on WIDER FACE and FDDB datasets with practical runtime speed. Specifically, our method achieves 76.4 average precision on the challenging WIDER FACE dataset and 96% recall rate on the FDDB dataset with 7 frames per second (fps) for 900 * 1300 input image.

研究の動機と目的

  • 現実世界のシーンにおける極端に広いスケールの顔を検出する課題に対処する。
  • スケールフレンドリーな検出器アーキテクチャを提案し、単一バックボーンに統合されたスケール変動ネットワークを使用する。
  • 検出性能を最適化するためにスケール範囲をどのように分割し、ネットワーク構造を割り当てるかを決定する。
  • 共有表現を用いたエンドツーエンド訓練が、精度と効率の両立を実現できることを示す。

提案手法

  • 大規模なスケール範囲を、慎重に設計された深さと空間プーリングを用いて各々の専門ネットワークでモデリングされたサブ範囲に分割する。
  • スケール変動検出器を単一のバックボーンネットワーク(ResNet-50に類似)に統合して表現を共有する。
  • 画像ピラミッド推論を行うことなく、マルチスケール特徴に対してROIプーリングを使用して顔を分類・局在化する。
  • 異なるスケール範囲で検出器を分離して訓練し、スケール適合のROIsとグラウンドトゥルースを用い、オンライン難例マイニングを適用する。
  • スケール変動検出器からの予測を非極大値抑制で集約して最終検出を形成する。
  • バックボーンのフィルタを削減して実行速度を向上させつつ、APの低下を最小限に抑えることでモデルを圧縮する。

実験結果

リサーチクエスチョン

  • RQ1顔検出のためのスケール範囲を最適な精度と速度で区分する最良の方法は何か?
  • RQ2バックボーンを共有するスケール変動検出器は、単一スケールやナイーブなエンサンブルよりも広いスケールでの顔検出で性能を上回るか?
  • RQ3特徴マップ上の投影ROIスケールとROIプーリングテンプレートの整合性は検出性能にどのように影響するか?
  • RQ4統合されたネットワークに複数のスケール特化検出器を組み合わせる際の精度と実行時間のトレードオフはどうなるか?

主な発見

  • 顔スケールはターゲットスケールに合わせたROIプーリングと専用のネットワーク構造の恩恵を受ける;不適切なROIマッピングは性能を低下させる。
  • Appearance variationに基づいてスケールを3〜4グループに分割し、適切なプーリングストライドを割り当てることは、WIDER FACEのEasy/Medium/Hard設定でAPを大幅に向上させる。
  • スケール変動検出器間で共有された表現を共同最適化することは、WIDER FACEでのAPにおいてナイーブなエンサンブルを上回る。
  • ScaleFaceはWIDER FACE Hardで76.4 APを達成し、4 fpsとFDDB recall ratesでeqを持つ(200 FPで94.55%、2000 FPで96%)。
  • 圧縮版ScaleFace-Fastは900x1300画像あたり160 msで75.5 APを達成し、HRより10倍速いがAP損失は最小限。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。