[論文レビュー] Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision
本稿では、空間的およびチャネルワイズの注目を用いた特徴統合ピラミッドと自己教師付きセグメンテーションブランチを導入することで、特徴表現を向上させる単一スホット顔検出器DF²S²を提案する。高レベルの意味的特徴を文脈的ヒントとして用い、低レベルの詳細特徴と統合することで、弱教師付きセグメンテーションを用いて判別性の高い特徴表現を学習する。このアプローチにより、WIDER FACEでEasy, Medium, Hardの各セットにおいて95.6%、94.7%、89.8%のSOTA mAPを達成し、26.45 FPSのリアルタイム推論を維持した。
The performance of face detectors has been largely improved with the development of convolutional neural network. However, it remains challenging for face detectors to detect tiny, occluded or blurry faces. Besides, most face detectors can't locate face's position precisely and can't achieve high Intersection-over-Union (IoU) scores. We assume that problems inside are inadequate use of supervision information and imbalance between semantics and details at all level feature maps in CNN even with Feature Pyramid Networks (FPN). In this paper, we present a novel single-shot face detection network, named DF$^2$S$^2$ (Detection with Feature Fusion and Segmentation Supervision), which introduces a more effective feature fusion pyramid and a more efficient segmentation branch on ResNet-50 to handle mentioned problems. Specifically, inspired by FPN and SENet, we apply semantic information from higher-level feature maps as contextual cues to augment low-level feature maps via a spatial and channel-wise attention style, preventing details from being covered by too much semantics and making semantics and details complement each other. We further propose a semantic segmentation branch to best utilize detection supervision information meanwhile applying attention mechanism in a self-supervised manner. The segmentation branch is supervised by weak segmentation ground-truth (no extra annotation is required) in a hierarchical manner, deprecated in the inference time so it wouldn't compromise the inference speed. We evaluate our model on WIDER FACE dataset and achieved state-of-art results.
研究の動機と目的
- 実世界のシナリオにおける極小、部分的遮蔽、ぼやけた顔の検出という課題に対処すること。
- 特徴ピラミッドの各レベルにおいて意味的特徴と詳細情報をバランスよく統合することで、特徴表現を向上させること。
- アンカーベースの検出器の限界を克服し、セグメンテーションブランチによってより効果的に監督信号を活用すること。
- 効率的なアーキテクチャ設計により、検出精度を向上させながらもリアルタイム推論速度を維持すること。
提案手法
- 高レベルの意味的特徴を文脈的ヒントとして用い、低レベル特徴マップを強化する空間的およびチャネルワイズの注目に基づく特徴統合機構を提案する。
- 弱教師付きバウンディングボックスアノテーションに基づいて学習される自己教師付きセマンティックセグメンテーションブランチを導入し、追加のアノテーションなしで特徴学習を支援する。
- セグメンテーションブランチに階層的監督を適用することで、特徴の判別性を向上させつつ、推論速度を維持する。
- アップサンプリング時にトランスポジット畳み込みを用い、統合過程での情報損失を最小限に抑えることで、空間的解像度を保持する。
- 検出とセグメンテーションの損失を組み合わせたマルチタスク学習戦略を採用し、最適化のバランスをとるために重みを動的に調整する。
- 推論時における速度低下を避けるために、セグメンテーションブランチを学習時のみに適用し、推論時には削除する。
実験結果
リサーチクエスチョン
- RQ1特徴統合において、微細な特徴を抑制せずに、意味的豊かさと空間的詳細の両立をどのように達成できるか?
- RQ2追加のアノテーションを必要とせずに、自己教師付きセグメンテーションブランチが顔検出における特徴学習をどのように向上できるか?
- RQ3セグメンテーション監督を統合することで、WIDER FACEのような困難な顔検出ベンチマークでの性能はどの程度向上するか?
- RQ4最先端の単一スホット顔検出器と比較して、本手法の精度と速度はどのように異なるか?
主な発見
- ResNet-50をバックボーンとして使用したDF²S²は、WIDER FACEバリデーションセットのEasy, Medium, Hardサブセットでそれぞれ95.6%、94.7%、89.8%のSOTA mAPを達成した。
- ResNet-101をバックボーンとして使用した場合、Easy, Medium, Hardサブセットでそれぞれ96.9%、95.9%、91.2%のmAPを達成し、優れたスケーラビリティを示した。
- PyramidBoxと比較して、Hardサブセットでの検出性能が+0.9%向上した。これは、遮蔽やスケール変動に対する優れたロバスト性を示している。
- 最適なセグメンテーション損失重みはλ₂ = 0.05であった。他の値に対しても性能低下が最小限に抑えられ、安定した学習が可能であることが示された。
- 640×512の入力に対してTesla P40 GPU上で26.45 FPSのリアルタイム推論速度を維持しており、追加部品の影響を受けることなく効率性が保証された。
- アブレーションスタディの結果、注目ベースの統合とセグメンテーションブランチの両方が性能向上に寄与しており、特に難易度の高いケースにおいてセグメンテーションブランチの効果が顕著に現れた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。