QUICK REVIEW

[論文レビュー] Accurate Face Detection for High Performance

Faen Zhang, Xinyu Fan|arXiv (Cornell University)|May 5, 2019

Face recognition and analysis参考文献 54被引用数 24

ひとこと要約

この論文では、最近の技術を統合して改良したRetinaNetを基盤とする高パフォーマンスな顔検出器AInnoFaceを提案する。具体的には、2段階分類と回帰、境界ボックス回帰のためのIoU損失、データアノテーションサンプリングに基づくデータ拡張、ロバストな分類のためのmax-out、およびマルチスケールテストを採用している。本手法は、WIDER FACE検証セットにおいて、Easyで97.0%、Mediumで96.1%、Hardで91.8%のAPスコアを達成し、すべての先行手法を上回る性能を示した。

ABSTRACT

Face detection has witnessed significant progress due to the advances of deep convolutional neural networks (CNNs). Its central issue in recent years is how to improve the detection performance of tiny faces. To this end, many recent works propose some specific strategies, redesign the architecture and introduce new loss functions for tiny object detection. In this report, we start from the popular one-stage RetinaNet approach and apply some recent tricks to obtain a high performance face detector. Specifically, we apply the Intersection over Union (IoU) loss function for regression, employ the two-step classification and regression for detection, revisit the data augmentation based on data-anchor-sampling for training, utilize the max-out operation for classification and use the multi-scale testing strategy for inference. As a consequence, the proposed face detection method achieves state-of-the-art performance on the most popular and challenging face detection benchmark WIDER FACE dataset.

研究の動機と目的

オクルージョン、スケール変動、小さな顔のサイズといった顕著な課題を抱える非制約的状況下での顔検出性能の向上を目的とする。
最近のディーブラーニングの進展を統合することで、特に小さな顔に対する1段階型顔検出器の性能を向上させることを目的とする。
WIDER FACEベンチマーク、すなわち標準的かつ困難な顔検出データセットにおいて最先端の結果を達成することを目的とする。
複数の最近の技術を組み合わせることで、アーキテクチャの大幅な見直しを伴わずに検出精度を顕著に向上させられることを示すこと。

提案手法

顔検出のベースライン1段階検出器としてRetinaNetを採用する。
局所化と分類の精度向上を目的に、2段階分類と回帰を適用する。
境界ボックス回帰を直接最適化するため、交差領域（IoU）損失を用いる。
小さな顔に対する一般化性能の向上を目的に、データアノテーションサンプリングに基づくデータ拡張を実装する。
特徴のロバスト性を向上させるために、分類ヘッドにmax-out演算を導入する。
小さな顔に対する推論性能の向上を目的に、境界ボックス投票を用いたマルチスケールテストを採用する。

実験結果

リサーチクエスチョン

RQ1WIDER FACEのような困難なベンチマークにおいて、最近のディーブラーニング技術を統合することで顔検出性能を顕著に向上させられるか？
RQ22段階分類と回帰戦略は、小さな顔に対する検出精度の向上にどの程度有効か？
RQ3データアノテーションサンプリングに基づくデータ拡張は、小さな顔インスタンスにおける一般化性能をどの程度向上させるか？
RQ4IoU損失の使用は、標準的な回帰損失と比較して、局所化精度を向上させるか？
RQ5投票を伴うマルチスケールテストは、小さな顔や検出が難しい顔に対してさらなる性能向上をもたらすか？

主な発見

AInnoFaceは、WIDER FACE検証セットのEasyサブセットで、最先端の平均適合率（AP）97.0%を達成した。
本手法は、検証セットのMediumサブセットで96.1%のAP、Hardサブセットで91.8%のAPを達成し、比較したすべてのSOTA手法を上回った。
テストセットでは、Easyで96.5%のAP、Mediumで95.7%のAP、Hardで91.2%のAPを達成し、強力な一般化性能を確認した。
アブレーションスタディの結果、特にIoU損失とマルチスケールテストが性能向上に顕著な寄与をしていることが確認された。
技術の組み合わせにより、特にオクルージョンや小スケールの困難な例において、すべての難易度レベルで一貫した性能向上が得られた。
結果から、アーキテクチャの強化がなくても、既存技術の効果的な統合によりSOTAを達成できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。