QUICK REVIEW

[論文レビュー] Face Detection with the Faster R-CNN

Huaizu Jiang, Erik Learned-Miller|arXiv (Cornell University)|Jun 10, 2016

Face recognition and analysis参考文献 1被引用数 36

ひとこと要約

この論文は、WIDER Faceデータセット上でFaster R-CNNモデルをファインチューニングすることにより、エンド・ツー・エンド学習と共有畳み込み特徴量を活用した、領域提案ネットワーク（RPN）を用いて、顔検出の最先端性能を達成している。FDDBおよびIJB-Aベンチマークにおいて、従来の領域ベースのCNN手法と比較して、速度と精度の両面で優れた結果が得られている。

ABSTRACT

The Faster R-CNN has recently demonstrated impressive results on various object detection benchmarks. By training a Faster R-CNN model on the large scale WIDER face dataset, we report state-of-the-art results on two widely used face detection benchmarks, FDDB and the recently released IJB-A.

研究の動機と目的

Faster R-CNNフレームワークを用いて、顔検出で最先端の性能を達成すること。
領域提案ネットワーク（RPN）が、顔検出のための高品質な深層学習済みオブジェクト候補を生成する有効性を評価すること。
従来の領域ベースのCNN検出器（R-CNN、Fast R-CNN）および最近の他の顔検出器を、標準ベンチマーク上で比較すること。
エンド・ツー・エンド学習と共有畳み込み特徴量が、検出速度と精度に与える影響を分析すること。
特にFDDBと新しいIJB-Aベンチマークにおける性能の違いに注目し、データセット間での一般化性能を評価すること。

提案手法

顔検出を目的として、大規模なWIDER Faceデータセット上でFaster R-CNNモデルをファインチューニングした。
エンド・ツー・エンドで動作する完全畳み込み型の候補生成器として、領域提案ネットワーク（RPN）を活用した。
RPNとFast R-CNN検出器モジュールの間で、同じ畳み込み特徴マップを共有することで、計算量を削減し、エンド・ツー・エンド学習を可能にした。
オブジェクトネス分類損失とボックス回帰損失の二重損失を用いて、モデルをエンド・ツー・エンドで学習させた。
FDDBおよびIJB-Aの標準指標を用いて検出性能を評価し、離散的および連続的スコアを用いたROC曲線を含めた。
バックボーンネットワークとしてVGG16を採用し、ImageNetの事前学習からファインチューニングした。

実験結果

リサーチクエスチョン

RQ1大規模な顔データセットでファインチューニングされたFaster R-CNNは、標準の顔検出ベンチマークで最先端の性能を達成できるか？
RQ2Faster R-CNNにおけるRPNベースの候補生成は、手作業で作成された（例：EdgeBox）または他の学習済み手法（例：Faceness、DeepBox）と比較して、精度と速度の面でどのように異なるか？
RQ3FDDBおよびIJB-AにおけるFaster R-CNNと他の最近の高性能顔検出器との性能差は何か、特に連続的スコア評価下でどうか？
RQ4Faster R-CNNはなぜFDDBよりもIJB-Aで優れた性能を発揮するのか？また、データセットのアノテーションの一貫性が果たす役割は何か？
RQ5共有特徴量を用いたエンド・ツー・エンド学習は、顔検出における速度と精度の両面でどの程度向上をもたらすか？

主な発見

Faster R-CNNは、FDDBおよびIJB-Aベンチマークの両方で最先端の性能を達成した。FDDBでは、誤検出数が約200を超える状況で、他の11種類の最近の検出器を上回った。
FDDBにおける連続的スコア評価では、500件の誤検出数での真正陽性率が0.718に達し、MultiresHPMに次ぐ2位の成績を収めたが、他の多くの手法を上回った。
新しいIJB-Aベンチマークでは、Faster R-CNNは他のすべての手法を大きく上回り、困難で多様な顔画像への強い一般化性能を示した。
RPNモジュールが、R-CNNおよびFast R-CNNとの性能向上の主な要因であった。これは、高品質で深層学習済みの候補を生成できる能力に起因する。
Faster R-CNN全体のパイプラインは、R-CNNおよびFast R-CNNよりも著しく高速であり、FDDBデータセットでは1枚あたりの推論時間がわずか0.38秒であった。
定性的な結果から、重なった、覆い隠された、極端なポーズの顔に対しても、強力な検出性能が確認され、モデルの耐障害性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。