Skip to main content
QUICK REVIEW

[論文レビュー] RetinaFace: Single-stage Dense Face Localisation in the Wild

Jiankang Deng, Jia Guo|arXiv (Cornell University)|May 2, 2019
Face recognition and analysis参考文献 73被引用数 423
ひとこと要約

RetinaFace は、顔スコア、ボックス、5つの顔のランドマーク、密な3D顔情報を共同予測する1ステージの密な顔定位検出器を導入し、WIDER FACE Hard で最先端の結果を達成し、顔認識ベンチマークの改善に寄与する。

ABSTRACT

Though tremendous strides have been made in uncontrolled face detection, accurate and efficient face localisation in the wild remains an open challenge. This paper presents a robust single-stage face detector, named RetinaFace, which performs pixel-wise face localisation on various scales of faces by taking advantages of joint extra-supervised and self-supervised multi-task learning. Specifically, We make contributions in the following five aspects: (1) We manually annotate five facial landmarks on the WIDER FACE dataset and observe significant improvement in hard face detection with the assistance of this extra supervision signal. (2) We further add a self-supervised mesh decoder branch for predicting a pixel-wise 3D shape face information in parallel with the existing supervised branches. (3) On the WIDER FACE hard test set, RetinaFace outperforms the state of the art average precision (AP) by 1.1% (achieving AP equal to 91.4%). (4) On the IJB-C test set, RetinaFace enables state of the art methods (ArcFace) to improve their results in face verification (TAR=89.59% for FAR=1e-6). (5) By employing light-weight backbone networks, RetinaFace can run real-time on a single CPU core for a VGA-resolution image. Extra annotations and code have been made available at: https://github.com/deepinsight/insightface/tree/master/RetinaFace.

研究の動機と目的

  • 野外での幅広いスケールと遮蔽に対して頑健で効率的な顔定位を促進する。
  • 追加監視(顔ランドマーク)と自教師あり(密な3Dメッシュ)信号を活用した1ステージ密 detectorsを提案する。
  • ジョイントマルチタスク学習が検出精度と下流の顔認識を改善することを示す。
  • CPUおよびモバイル展開に適した軽量でリアルタイム性のあるオプションを提供する。
  • さらなる研究を促進するための注釈とコードを公開する。

提案手法

  • マルチスケールの顔定位のためにP2–P6の特徴ピラミッドを用いた単一ステージ検出器を使用する。
  • 5つの顔ランドマークを予測する追加監視ブランチと、ピクセル単位の3D顔形状を予測する密な回帰ブランチを追加する。
  • グラフ畳み込みに基づく密な回帰メッシュデコーダと、ピクセル単位の回帰損失(L_pixel)を用いる微分可能な3Dレンダラを組み込む。
  • 分類・ボックス回帰・ランドマーク回帰・密なピクセル回帰を組み合わせたアンカーごとのマルチタスク損失を最適化する。
  • 文脈モジュールでの変形可能畳み込みと、クラス不均衡に対するOHEMを用いたアンカー学習を採用する。
  • 軽量バックボーン(例: MobileNet-0.25)でリアルタイム推論を実現し、CPU/GPU向けのスケーラブルなオプションを提供する。

実験結果

リサーチクエスチョン

  • RQ1ランドマークからの追加監視は、単一ステージの密検出器における難易度の高い顔検出を改善できるか?
  • RQ2自 supervis上の密な3Dメッシュ回帰ブランチを追加することで、ピクセル単位の顔定位と全体的な検出精度が向上するか?
  • RQ3ランドマークと密回帰のジョイント学習は、WIDER FACEのサブセット全体で顔検出性能にどのような影響を与えるか?
  • RQ4検出とアライメントに使用した場合、RetinaFaceは下流の顔認識にどのような影響を及ぼすか?
  • RQ5CPUおよびモバイルハードウェア上でのRetinaFaceのリアルタイム性能特性はどのようになるか?

主な発見

  • WIDER FACE hard において RetinaFace は AP 91.4% を達成し、以前の最先端を1.1ポイント上回った。
  • IJB-C では RetinaFace が ArcFace 検証を FAR 1e-6 で TAR 89.59% へ改善。
  • MobileNet-0.25 を用いた軽量版 RetinaFace はリアルタイム速度を実現:CPU の VGA 画像で 60 FPS、ARM の 640×480 で 16 FPS。
  • 五つの顔ランドマークは hardサブセットの AP と mAP を大幅に改善(ランドマークブランチ + 0.775% の mAP 増加)。
  • 密回帰のみでは Easy/Medium には有効だが Hard でやや悪影響を及ぼす可能性がある;ランドマークとのジョイント学習でさらなる改善が得られる。
  • 密な3D回帰は自己監視学習でトレーニングされ、監視付き密法と競合するが、検出とアライメントに利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。