Skip to main content
QUICK REVIEW

[論文レビュー] Receptive Field Block Net for Accurate and Fast Object Detection

Songtao Liu, Di Huang|arXiv (Cornell University)|Nov 21, 2017
Advanced Neural Network Applications参考文献 39被引用数 120
ひとこと要約

本論文は Receptive Field Block (RFB) を導入し、軽量SSDベースの検出器を強化し、深いバックボーンに匹敵する高精度をリアルタイム速度を維持しつつ達成。RFB Net は VOCとCOCOでいくつかのリアルタイム検出器を上回る。

ABSTRACT

Current top-performing object detectors depend on deep CNN backbones, such as ResNet-101 and Inception, benefiting from their powerful feature representations but suffering from high computational costs. Conversely, some lightweight model based detectors fulfil real time processing, while their accuracies are often criticized. In this paper, we explore an alternative to build a fast and accurate detector by strengthening lightweight features using a hand-crafted mechanism. Inspired by the structure of Receptive Fields (RFs) in human visual systems, we propose a novel RF Block (RFB) module, which takes the relationship between the size and eccentricity of RFs into account, to enhance the feature discriminability and robustness. We further assemble RFB to the top of SSD, constructing the RFB Net detector. To evaluate its effectiveness, experiments are conducted on two major benchmarks and the results show that RFB Net is able to reach the performance of advanced very deep detectors while keeping the real-time speed. Code is available at https://github.com/ruinmessi/RFBNet.

研究の動機と目的

  • 非常に深いバックボーンに頼ることなく、高精度でリアルタイム物体検出を動機づける。
  • 軽量ネットワークの特徴判別能力を向上させるために、神経科学に触発された受容野特性を活用する。
  • SSDの上にRFBモジュールを追加して実用的な検出器を開発し、VOCとCOCOで評価する。

提案手法

  • 複数のカーネルを組み合わせた多分岐畳み込みを含む Receptive Field Block (RFB) を提案し、複数の RF サイズを模擬する。
  • ボトルネック構造と分解畳み込み(1x1, 3x3, および 1xN / Nx1 バリアント)を ResNet/Inception風の残差接続と組み合わせる。
  • 偏心性に関連する RF 拡張をモデル化するために拡張畳み込み/プーリング層を追加し、ブランチを結合して強化された特徴を形成する。
  • トップのSSD層を RFB(小さな RF 用の RFB-s バリアントを含む)と置換して、VGG16 バックボーン上に RFB Net を構築する。
  • SSDスタイルの損失、データ拡張、Hard Negative Miningで訓練し、ウォームアップ学習率戦略と標準スケジュールを採用する。
  • COCOの場合、小さなアーキテクチャの微調整(up-sampling conv7、7x7 ブランチ)を検討し、精度を高めつつ速度に与える影響を抑える。

実験結果

リサーチクエスチョン

  • RQ1軽量バックボーン上の RF inspired モジュールはリアルタイム速度を維持しつつ競争力のある精度を達成できるか?
  • RQ2受容野のサイズと偏心性の関係を模擬することは検出の頑健性と識別性を改善するか?
  • RQ3RFB Net は VOC および COCO で最先端のワン-stage およびツー-stage デ detectors とどう比べるか?

主な発見

  • RFB Net300(VGG バックボーン) は VOC2007 で 80.5% mAP、リアルタイム速度で (83 FPS)。
  • RFB Net512(VGG) は VOC2007 で 82.2% mAP、38 FPS、リアルタイム検出器の多くを上回り、いくつかの二段検出器よりも高い。
  • COCO では、RFB Net300 は test-dev で 30.3% mAP、0.5:0.95 範囲で 49.3%、SSD300* を上回り、軽量バックボーンで R-FCN 相当の性能に近づく。
  • RFB モジュールは Inception、ASPP、Deformable CNN ブロックよりも優れており、VOC2007 および COCO minival で SSD に搭載した場合に上回る。
  • COCO の RFB Net512-E(enhanced RFB)は 34.4% mAP をわずかな速度増加で実現し、速度と精度のトレードオフが良好である。
  • RFB を MobileNet-SSD に接続すると、一般化と軽量バックボーンで精度が向上することを確認。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。