Skip to main content
QUICK REVIEW

[論文レビュー] RON: Reverse Connection with Objectness Prior Networks for Object Detection

Tao Kong, Fuchun Sun|arXiv (Cornell University)|Jul 6, 2017
Advanced Neural Network Applications参考文献 25被引用数 66
ひとこと要約

RON は CNN のスケール across CNN scales with an objectness prior to create a fast, end-to-end, fully convolutional detector that competes with region-based and region-free methods, achieving strong results on VOC and COCO while running at about 15 FPS.

ABSTRACT

We present RON, an efficient and effective framework for generic object detection. Our motivation is to smartly associate the best of the region-based (e.g., Faster R-CNN) and region-free (e.g., SSD) methodologies. Under fully convolutional architecture, RON mainly focuses on two fundamental problems: (a) multi-scale object localization and (b) negative sample mining. To address (a), we design the reverse connection, which enables the network to detect objects on multi-levels of CNNs. To deal with (b), we propose the objectness prior to significantly reduce the searching space of objects. We optimize the reverse connection, objectness prior and object detector jointly by a multi-task loss function, thus RON can directly predict final detection results from all locations of various feature maps. Extensive experiments on the challenging PASCAL VOC 2007, PASCAL VOC 2012 and MS COCO benchmarks demonstrate the competitive performance of RON. Specifically, with VGG-16 and low resolution 384X384 input size, the network gets 81.3% mAP on PASCAL VOC 2007, 80.7% mAP on PASCAL VOC 2012 datasets. Its superiority increases when datasets become larger and more difficult, as demonstrated by the results on the MS COCO dataset. With 1.5G GPU memory at test phase, the speed of the network is 15 FPS, 3X faster than the Faster R-CNN counterpart.

研究の動機と目的

  • 領域ベース検出と領域フリー検出のパラダイムを橋渡しし、それぞれの長所を活かす。
  • リバース接続を通じてオブジェクトを対応するCNNスケールに結び付けることで、マルチスケールのオブジェクト局在を可能にする。
  • 検出を導くためのオブジェクト性の事前情報を用いて、負サンプルの探索を削減する。
  • オブジェクト性・局在化・分類を共同最適化する統一的なエンドツーエンドフレームワークを訓練・展開する。

提案手法

  • 上位レベルの意味マップの特徴を下位層に統合するリバース接続を導入し、複数の CNN スケールでオブジェクトを検出する。
  • 複数の特徴マップ上で、スケールとアスペクト比を用いてデフォルトボックスを生成し、物体サイズを網羅する。
  • 計算コストが低い分岐としてオブジェクト性の事前情報を追加し、トレーニングおよび推論時の負サンプルを削減する。
  • マルチスケール特徴マップ上で領域境界ボックスを分類・回帰するために、Inception ベースの検出モジュールを使用する。
  • オブジェクト性の事前情報を検出と組み合わせ、オブジェクト性・局在化・クラス別分類を同時に最適化するマルチタスク損失を用いる。
  • 推論時には、オブジェクト性とクラス条件付き予測を掛け合わせてクラス条件付きスコアを算出し、NMS を適用して最終検出を得る。

実験結果

リサーチクエスチョン

  • RQ1学習可能なリバース接続を備えた複数のCNNスケールに検出を分散させることで、マルチスケールの物体局在をどのように向上させられるだろうか?
  • RQ2明示的なオブジェクト性の事前情報は、別個の領域提案を生成せずに探索空間を削減し、トレーニング効率を向上させることができるか?
  • RQ3オブジェクト性・局在化・分類の共同エンドツーエンド最適化は、領域ベースおよび領域フリー検出器と競合する性能を発揮するか?

主な発見

  • RON は MS COCO 事前学習と VOC2012 微調整で PASCAL VOC 2007 の mAP が 81.3% に達する(VOC2007 の結果は表4に掲載)。
  • RON は 同じ事前学習設定で PASCAL VOC 2012 の mAP が 80.7% に達する(表4)。
  • MS COCO test-dev2015 で RON は 27.4% AP に到達し、標準 COCO 評価において Faster R-CNN および SSD を上回る(表3)。
  • 推論時の GPU メモリ 1.5 GB で、RON は 15 FPS、Faster R-CNN の約 3 倍速い。
  • 複数の特徴マップとリバース接続の使用は、基準モデルと比較して小さな物体の検出を改善(例: 船、ボトル)。
  • COCO 事前学習によるファインチューニングは VOC の結果を大幅に向上させ、RON384++ は VOC2012 における VGG-16 ベースモデルの中でトップの性能を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。