Skip to main content
QUICK REVIEW

[論文レビュー] Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

Wei Liu, Irtiza Hasan|arXiv (Cornell University)|Apr 5, 2019
Advanced Neural Network Applications参考文献 72被引用数 29
ひとこと要約

本論文は、深層畳み込み特徴を用いて、歩行者および顔検出を、中心点とスケールの予測問題として定式化することで、ボックスフリーなオブジェクト検出手法を提案する。オブジェクト中心点を学習可能な意味的キーポイントとして扱い、標準的な畳み込みによりスケールを予測することで、1段階で実行可能なアーキテクチャに簡素化されたアプローチであり、ベンチマーク全体にわたり競争力ある精度と優れた一般化性能を達成している。

ABSTRACT

Object detection generally requires sliding-window classifiers in tradition or anchor box based predictions in modern deep learning approaches. However, either of these approaches requires tedious configurations in boxes. In this paper, we provide a new perspective where detecting objects is motivated as a high-level semantic feature detection task. Like edges, corners, blobs and other feature detectors, the proposed detector scans for feature points all over the image, for which the convolution is naturally suited. However, unlike these traditional low-level features, the proposed detector goes for a higher-level abstraction, that is, we are looking for central points where there are objects, and modern deep models are already capable of such a high-level semantic abstraction. Besides, like blob detection, we also predict the scales of the central points, which is also a straightforward convolution. Therefore, in this paper, pedestrian and face detection is simplified as a straightforward center and scale prediction task through convolutions. This way, the proposed method enjoys a box-free setting. Though structurally simple, it presents competitive accuracy on several challenging benchmarks, including pedestrian detection and face detection. Furthermore, a cross-dataset evaluation is performed, demonstrating a superior generalization ability of the proposed method

研究の動機と目的

  • アノテーションボックスやスライディングウィンドウを排除することで、オブジェクト検出を高レベルの意味的特徴検出タスクに再定式化すること。
  • 畳み込みネットワークを用いて、オブジェクト検出を直接的な中心点とスケール予測問題に簡素化すること。
  • ボックスベースの設計バイアスを排除することで、異なるデータセット間での一般化性能を向上させること。
  • 深層モデルが明示的なバウンディングボックスの教師信号を必要とせず、自然に意味的オブジェクト中心点とスケールを検出できることを示すこと。

提案手法

  • 本手法は、深層畳み込みネットワークを用いて、エッジやコーナー検出器と同様に、オブジェクト中心点を高レベルの意味的特徴として検出する。
  • 別個の畳み込みヘッドを用いて、検出された中心点のスケールを予測することで、スケールに敏感な局所化を実現する。
  • 検出パイプライン全体を、アノテーションボックスやリージョンプロポーザルを一切含まない、1段階でエンドツーエンドの畳み込みネットワークとして実装する。
  • 特徴マップから直接、中心点の位置とスケール推定値を回帰するようにモデルを学習し、標準的な回帰損失関数を用いる。
  • 現代のCNNが持つ階層的特徴抽象化能力を活用することで、低レベルの幾何的事前知識に依存せずに意味的中心点を検出する。
  • 本手法は、歩行者および顔検出ベンチマークの両方で評価され、多様なデータセットにわたり高い頑健性を示している。

実験結果

リサーチクエスチョン

  • RQ1アノテーションボックスやスライディングウィンドウを一切使用せずに、オブジェクト検出を中心点とスケール予測タスクに再定式化できるか?
  • RQ2深層畳み込みネットワークは、歩行者や顔のような高レベルの意味的中心点を効果的に検出できるか?
  • RQ3ボックスフリーな検出アプローチは、アノテーションボックスベースの手法と比較して、異なるデータセット間でより優れた一般化性能を示すか?
  • RQ4中心点とスケール予測手法の性能は、歩行者および顔検出タスクにおける最先端のアノテーションボックスベースの検出器と比較してどうか?

主な発見

  • 提案手法は、歩行者および顔検出の複数の困難なベンチマークで、競争力ある検出精度を達成している。
  • クロスデータセット評価において、ドメインシフトに強く、優れた一般化能力を示している。
  • アノテーションボックスやスライディングウィンドウを排除することで、検出パイプラインが簡素化された一方で、高い性能を維持している。
  • 本手法は、意味的中心点検出に深層特徴を効果的に活用しており、このような高レベルの抽象化が検出タスクにおいて実現可能で効果的であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。