[論文レビュー] LFFD: A Light and Fast Face Detector for Edge Devices
LFFD はエッジデバイス向けに設計されたアンカーフリー、ワンステージの顔検出器で、効率的な8分岐バックボーンによりプラットフォームを横断してリアルタイム性能を達成し、WIDER FACEとFDDBのベンチマークで高い精度を実現します。
Face detection, as a fundamental technology for various applications, is always deployed on edge devices which have limited memory storage and low computing power. This paper introduces a Light and Fast Face Detector (LFFD) for edge devices. The proposed method is anchor-free and belongs to the one-stage category. Specifically, we rethink the importance of receptive field (RF) and effective receptive field (ERF) in the background of face detection. Essentially, the RFs of neurons in a certain layer are distributed regularly in the input image and theses RFs are natural "anchors". Combining RF "anchors" and appropriate RF strides, the proposed method can detect a large range of continuous face scales with 100% coverage in theory. The insightful understanding of relations between ERF and face scales motivates an efficient backbone for one-stage detection. The backbone is characterized by eight detection branches and common layers, resulting in efficient computation. Comprehensive and extensive experiments on popular benchmarks: WIDER FACE and FDDB are conducted. A new evaluation schema is proposed for application-oriented scenarios. Under the new schema, the proposed method can achieve superior accuracy (WIDER FACE Val/Test -- Easy: 0.910/0.896, Medium: 0.881/0.865, Hard: 0.780/0.770; FDDB -- discontinuous: 0.973, continuous: 0.724). Multiple hardware platforms are introduced to evaluate the running efficiency. The proposed method can obtain fast inference speed (NVIDIA TITAN Xp: 131.45 FPS at 640x480; NVIDIA TX2: 136.99 PFS at 160x120; Raspberry Pi 3 Model B+: 8.44 FPS at 160x120) with model size of 9 MB.
研究の動機と目的
- 限られたメモリと計算能力を持つデバイスでの効率的な顔検出の必要性に対処する。
- 受容野の概念を活用して広いスケール範囲をカバーするアンカーフリー・ワンステージ検 detector を提案する。
- 速度と精度を最適化する複数の検出ブランチを持つ軽量バックボーンを設計する。
- 標準ベンチマーク(WIDER FACE、FDDB)および多様なハードウェアで評価し、エッジデバイスでの実用性を示す。
提案手法
- 事前に定義されたアンカーなしで規則的な RF ベースのアンカーを形作る受容野の概念を再解釈する。
- 計算を削減する共通レイヤを持つ軽量の8分岐検出バックボーンを開発する。
- RF ストライドと RF アンカーを統合して理論的に広いスケールカバレッジを実現する。
- エッジデバイスに適した効率性のためのアンカーフリー・ワンステージ検出フレームワークを採用する。
- 新しいアプリケーション指向の評価スキームでWIDER FACEとFDDBを評価する。
実験結果
リサーチクエスチョン
- RQ1アンカーなし、ワンステージ検出器はエッジデバイスに適したまま、標準の顔ベンチマークで競争力のある精度を達成できるか。
- RQ2受容野と有効受容野の知見がマルチスケールの顔検出のネットワークバックボーンとブランチ設計をどのように情報づけるか。
- RQ3エッジデプロイメントのための異なるハードウェアプラットフォーム間で、モデルサイズ、速度、精度のトレードオフはどうなるか。
主な発見
- 複数のデバイスで高速推論を達成(例:NVIDIA TITAN Xpで640x480時131.45 FPS;TX2で160x120時136.99 FPS;Raspberry Pi 3B+で160x120時8.44 FPS)。
- モデルサイズは9 MBで、メモリ制約のあるデバイスへの展開を可能にする。
- 新しい評価スキーム下のWIDER FACE 精度:Easy 0.910(Val)/ 0.896(Test)、Medium 0.881(Val)/ 0.865(Test)、Hard 0.780(Val)/ 0.770(Test)。
- 新しいスキーム下のFDDB 精度: discontinuous 0.973、 continuous 0.724。
- RFベースのアンカー概念と8つの検出ブランチによる顔スケールの理論上の100% カバレッジを提供。
- エッジデバイスの実現性を重視しつつ競争力のある性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。