Skip to main content
QUICK REVIEW

[論文レビュー] Accurate Single Stage Detector Using Recurrent Rolling Convolution

Jimmy Ren, Xiaohao Chen|arXiv (Cornell University)|Apr 19, 2017
Advanced Neural Network Applications参考文献 21被引用数 45
ひとこと要約

本論文では、マルチスケール特徴マップを繰り返し集約することで、境界ボックス予測の深く文脈に配慮した精錬を可能にする、新しいアーキテクチャ「再帰的ローリング畳み込み(RRC)」を提案する。この手法はKITTIベンチマークで最先端の性能を達成し、車両検出(ハードセット)で1位、自転車乗り検出で1位、歩行者検出で2位を記錆えた。これは、エンドツーエンドの単段階検出器が、より強力なバックボーンに依存せずに、2段階手法を上回る高IoU局所化精度を達成できることを示している。

ABSTRACT

Most of the recent successful methods in accurate object detection and localization used some variants of R-CNN style two stage Convolutional Neural Networks (CNN) where plausible regions were proposed in the first stage then followed by a second stage for decision refinement. Despite the simplicity of training and the efficiency in deployment, the single stage detection methods have not been as competitive when evaluated in benchmarks consider mAP for high IoU thresholds. In this paper, we proposed a novel single stage end-to-end trainable object detection network to overcome this limitation. We achieved this by introducing Recurrent Rolling Convolution (RRC) architecture over multi-scale feature maps to construct object classifiers and bounding box regressors which are "deep in context". We evaluated our method in the challenging KITTI dataset which measures methods under IoU threshold of 0.7. We showed that with RRC, a single reduced VGG-16 based model already significantly outperformed all the previously published results. At the time this paper was written our models ranked the first in KITTI car detection (the hard level), the first in cyclist detection and the second in pedestrian detection. These results were not reached by the previous single stage methods. The code is publicly available.

研究の動機と目的

  • 単段階検出器が、特に小さな物体や隠蔽された物体に対して高IoUの境界ボックスを生成する能力に限界があることに対処すること。
  • 領域提案ネットワークやより深いバックボーンに依存せずに、単段階検出器の局所化精度を向上させること。
  • 挑戦的なベンチマーク(例:KITTI)で競争力のある性能を達成できるエンドツーエンドの単段階検出器の訓練を可能にすること。
  • 再帰的特徴集約による文脈に配慮した精錬が、標準的な単段階回帰を上回ることを示すこと。

提案手法

  • マルチスケール特徴マップを横断する文脈的特徴の繰り返し集約により、物体候補を段階的に精錬する再帰的アーキテクチャ「RRC」を導入する。
  • RRCを単段階検出器に適用し、境界ボックスを回帰し、物体を分類することで、「文脈に深く関連した」特徴精錬を可能にする。
  • RRCの貢献をバックボーンの能力から分離するために、縮小されたVGG-16バックボーンを用い、性能向上が主に提案モジュールに起因することを保証する。
  • 出力3~5の特徴出力に対して標準的な非最大抑制(NMS)を適用するが、消去実験により、後段の出力でのNMSよりも性能が向上していることが示された。
  • RRCモジュールをローリングで再帰的に処理するように設計し、段階的かつ選択的な文脈統合を可能にする。
  • ネットワーク全体をエンドツーエンドで訓練し、特徴抽出、文脈集約、検出ヘッド予測の共同最適化を可能にする。

実験結果

リサーチクエスチョン

  • RQ1領域提案やより深いバックボーンを用いない単段階検出器が、高IoUベンチマーク(例:KITTI)で最先端の性能を達成できるか?
  • RQ2境界ボックス予測の再帰的・文脈に配慮した精錬が、小さな物体や隠蔽された物体の局所化精度を顕著に向上させるか?
  • RQ3新規の再帰的特徴集約モジュールを備えたエンドツーエンドの単段階検出器の訓練が、2段階手法をmAPの高IoU閾値で上回れるか?
  • RQ4性能向上はRRCモジュールそのものに起因するのか、それとも単により強力なバックボーンによるものなのか?

主な発見

  • RRCを用いた単段階検出器は、KITTIの車両検出テストセット(ハードカテゴリ)でmAP 89.85%を達成し、これまでに発表されたすべての結果を上回った。
  • RRCモデルのアンサンブルは、同じベンチマークでmAP 90.19%を達成し、非公開の匿名エントリを含め、提出されたすべての手法の中で1位となった。
  • 歩行者検出ベンチマーク(中程度セット)では、RRCはmAP 75.33%を達成し、2位となり、以前に発表された手法を上回った。
  • 自転車乗り検出ベンチマーク(中程度セット)では、RRCはmAP 76.47%を達成し、発表済みおよび非公開のすべての提出物の中で1位となった。
  • IoU閾値を0.8に引き上げた場合、RRCはベースラインのSSDを6%以上上回り、高精度局所化における有効性を確認した。
  • 消去実験では、RRCは後段出力でのNMSを適用した変種(RRC*)を常に上回ったことが示され、提案アーキテクチャの堅牢性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。