QUICK REVIEW

[論文レビュー] FaceBoxes: A CPU Real-time Face Detector with High Accuracy

Shifeng Zhang, Xiangyu Zhu|arXiv (Cornell University)|Aug 17, 2017

Face recognition and analysis参考文献 45被引用数 40

ひとこと要約

FaceBoxes は、CPU 推論を想定したリアルタイムで高精度な顔検出器であり、高速化のための迅速消化畳み込み層（RDCL）とマルチスケール顔検出のためのマルチスケール畳み込み層（MSCL）を活用した軽量ネットワークを採用している。VGA解像度の画像に対して単一の CPU コアで 20 FPS を達成し、AFW、PASCAL Face、FDDB ベンチマークで最先端の性能を示しており、小顔のリcallを顕著に向上させる新規なアンカーデンシフィケーション戦略を採用している。

ABSTRACT

Although tremendous strides have been made in face detection, one of the remaining open challenges is to achieve real-time speed on the CPU as well as maintain high performance, since effective models for face detection tend to be computationally prohibitive. To address this challenge, we propose a novel face detector, named FaceBoxes, with superior performance on both speed and accuracy. Specifically, our method has a lightweight yet powerful network structure that consists of the Rapidly Digested Convolutional Layers (RDCL) and the Multiple Scale Convolutional Layers (MSCL). The RDCL is designed to enable FaceBoxes to achieve real-time speed on the CPU. The MSCL aims at enriching the receptive fields and discretizing anchors over different layers to handle faces of various scales. Besides, we propose a new anchor densification strategy to make different types of anchors have the same density on the image, which significantly improves the recall rate of small faces. As a consequence, the proposed detector runs at 20 FPS on a single CPU core and 125 FPS using a GPU for VGA-resolution images. Moreover, the speed of FaceBoxes is invariant to the number of faces. We comprehensively evaluate this method and present state-of-the-art detection performance on several face detection benchmark datasets, including the AFW, PASCAL face, and FDDB. Code is available at https://github.com/sfzhang15/FaceBoxes

研究の動機と目的

CPU デバイス上でリアルタイムの速度と高精度を両立させる挑戦に応えること。
顔の数が増えると速度が著しく低下する、段階的畳み込みニューラルネットワーク（CNN）手法の限界を克服すること。
多様な顔のスケールや外観にわたって高い性能を維持できる、軽量でエンド・ツー・エンドで微調整可能なネットワークを設計すること。
新規なアンカーデンシフィケーション戦略により、小顔の検出リcallを向上させること。

提案手法

推論速度を向上させ、CPU 上でのリアルタイム性能を達成するために、迅速消化畳み込み層（RDCL）を導入すること。
受容 field を豊かにし、特徴マップ上の複数スケールのアンカー離散化を可能にするために、マルチスケール畳み込み層（MSCL）を提案すること。
特に小顔の検出を強化するために、異なる顔スケールにわたるアンカー密度をバランスさせる新しいアンカーデンシフィケーション戦略を設計すること。
効率的で正確な顔検出を実現するため、エンド・ツー・エンドで学習可能な完全畳み込み型の単段階ネットワークアーキテクチャを採用すること。
さまざまな顔のサイズをカバーするため、特徴マップ全体にわたるマルチスケールアンカータイリング機構を採用すること。
ボクシングボックス回帰のため、クロスエントロピー損失とスムーズ L1 損失を組み合わせて、モデルをエンド・ツー・エンドで学習すること。

実験結果

リサーチクエスチョン

RQ1単段階で完全畳み込み型の顔検出器は、CPU 上でリアルタイム推論を実現しつつ、高い精度を維持できるか？
RQ2計算コストを増加させずに、アンカー分布を最適化することで小顔のリcallを向上させることは可能か？
RQ3どのようなアーキテクチャ的要因が、CPU 上での高速推論を可能にするとともに、検出性能を維持できるか？
RQ4アンカーデンシフィケーションは、さまざまなベンチマークで小顔の検出性能にどの程度向上効果をもたらすか？
RQ5既存の顔検出器と比較して、提案された MSCL および RDCL の設計は、速度と精度のトレードオフにおいてどのように優れているか？

主な発見

FaceBoxes は、VGA解像度の画像に対して単一の CPU コアで 20 FPS を達成しており、画像内の顔の数に依存しない速度を維持している。
GPU 上では 125 FPS で動作しており、強力なハードウェアスケーラビリティを示している。
FDDB ベンチマークでは、連続 ROC 曲線における mAP が 96.0% に達し、すべての先行手法を上回る最先端の性能を示している。
アブレーションスタディの結果、アンカーデンシフィケーションにより FDDB で mAP が 1.1% 向上しており、小顔検出におけるその重要性が裏付けられている。
MSCL は、受容 field の多様性とスケール間でのアンカータイリングを向上させることで、FDDB で mAP を 1.0% 向上させた。
RDCL は推論時間を約 19.3ms 減少させつつ、mAP の低下はたった 0.1% にとどまり、その効率性と精度保持設計の有効性が実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。