Skip to main content
QUICK REVIEW

[論文レビュー] Learning Object Detectors from Scratch with Gated Recurrent Feature Pyramids.

Zhiqiang Shen, Humphrey Shi|arXiv (Cornell University)|Dec 4, 2017
Advanced Neural Network Applications参考文献 33被引用数 37
ひとこと要約

本稿では、特徴マップのスケールごとに動的に監視を調整することで、スクラッチからオブジェクト検出器を学習するゲート付き再帰的特徴ピラミッドネットワークを提案する。パラメータ数をDSODの1/3に削減し、ゲート制御による特徴精錬を採用することで、PASCAL VOC 2012(VOC 07++12)で77%のmAPを達成し、事前学習なしで学習した先行研究を上回り、一部のImageNet事前学習モデルでさえも上回る性能を発揮した。

ABSTRACT

In this paper, we propose gated recurrent feature pyramid for the problem of learning object detection from scratch. Our approach is motivated by the recent work of deeply supervised object detector (DSOD), but explores new network architecture that dynamically adjusts the supervision intensities of intermediate layers for various scales in object detection. The benefits of the proposed method are two-fold: First, we propose a recurrent feature-pyramid structure to squeeze rich spatial and semantic features into a single prediction layer that further reduces the number of parameters to learn (DSOD need learn 1/2, but our method need only 1/3). Thus our new model is more fit for learning from scratch, and can converge faster than DSOD (using only 50% of iterations). Second, we introduce a novel gate-controlled prediction strategy to adaptively enhance or attenuate supervision at different scales based on the input object size. As a result, our model is more suitable for detecting small objects. To the best of our knowledge, our study is the best performed model of learning object detection from scratch. Our method in the PASCAL VOC 2012 comp3 leaderboard (which compares object detectors that are trained only with PASCAL VOC data) demonstrates a significant performance jump, from previous 64% to our 77% (VOC 07++12) and 72.5% (VOC 12). We also evaluate the performance of our method on PASCAL VOC 2007, 2012 and MS COCO datasets, and find that the accuracy of our learning from scratch method can even beat a lot of the state-of-the-art detection methods which use pre-trained models from ImageNet. Code is available at: this https URL .

研究の動機と目的

  • スクラッチから正確なオブジェクト検出器を学習する課題、特に小サイズのオブジェクトに対する課題を解決すること。
  • 特徴ピラミッドネットワークにおける学習可能なパラメータ数を削減し、学習の効率性と収束性を向上させること。
  • オブジェクトのスケールに応じて動的に監視を調整するメカニズムを開発すること。
  • 異なる特徴レベルでの監視強度を効果的に強化または抑制することで、小サイズオブジェクトの検出性能を向上させること。
  • ImageNet事前学習を一切使用せずに、PASCAL VOCおよびMS COCOデータセットで最先端の性能を達成すること。

提案手法

  • 複数スケールの特徴を段階的に精錬する再帰的特徴ピラミッド構造を導入し、学習すべきパラメータ数を削減する。
  • ネットワークは、入力オブジェクトのサイズに応じて、異なる特徴レベルでの監視強度を適応的に調整するゲート制御機構を採用する。
  • ゲート機構により、検出オブジェクトのスケールに応じて特徴マップを強化または抑制し、小サイズオブジェクトの検出性能を向上させる。
  • アーキテクチャはスクラッチからエンドツーエンドで学習され、ImageNet事前学習に依存しない。
  • 学習可能なパラメータ数をDSODの1/3に削減することで、反復回数の50%で収束するようになり、高速化が実現された。
  • 空間的およびセマンティック情報のスケール間統合を実現する再帰的精錬プロセスにより、特徴ピラミッドが更新される。

実験結果

リサーチクエスチョン

  • RQ1再帰的特徴ピラミッドアーキテクチャは、スクラッチからのオブジェクト検出の学習効率と性能を向上させることができるか?
  • RQ2ゲーティング機構による適応的監視は、特に小サイズオブジェクトの検出精度にどのように影響を与えるか?
  • RQ3スクラッチから学習したモデルは、ImageNet事前学習に依存する最先端の検出器を上回ることができるか?
  • RQ4学習可能なパラメータ数の削減が、収束速度とモデル効率性にどの程度寄与するか?
  • RQ5提案手法は、PASCAL VOCおよびMS COCOのような多様なデータセットにどの程度一般化可能か?

主な発見

  • 提案手法は、PASCAL VOC 2012(VOC 07++12)で77%のmAPを達成し、スクラッチ学習の先行研究SOTA(64%)を顕著に上回った。
  • PASCAL VOC 2012単体では72.5%のmAPを達成し、事前学習なしでも強力な性能を示した。
  • DSODに比べて反復回数の50%で収束したため、パラメータ数の削減に起因する高速な学習が実現された。
  • PASCAL VOC 2007および2012の両方で、ImageNet事前学習を用いた多くの最先端検出器を上回った。
  • ゲート制御による監視機構は、特徴学習強度を動的に調整することで、小サイズオブジェクトの検出性能を顕著に向上させた。
  • MS COCOにおけるモデルの性能は、一般化能力を確認するものであり、事前学習なしで競争力のある精度を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。