Skip to main content
QUICK REVIEW

[論文レビュー] Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick, Jeff Donahue|arXiv (Cornell University)|Nov 11, 2013
Advanced Neural Network Applications参考文献 22被引用数 522
ひとこと要約

この論文は、選択的探索による領域提案と、畳み込みニューラルネットワーク(CNN)を用いた特徴抽出、および線形SVMによる分類を組み合わせた、R-CNN(Regions with CNN features)と呼ばれる新しいオブジェクト検出フレームワークを紹介する。ImageNetでの事前学習とVOC検出データへの微調整を活用したトランスファー学習により、PASCAL VOC 2012で53.3%の平均平均精度(mAP)を達成し、従来手法に比べて相対的に30%の向上を実現した。

ABSTRACT

Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. In this paper, we propose a simple and scalable detection algorithm that improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012---achieving a mAP of 53.3%. Our approach combines two key insights: (1) one can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposals in order to localize and segment objects and (2) when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost. Since we combine region proposals with CNNs, we call our method R-CNN: Regions with CNN features. We also compare R-CNN to OverFeat, a recently proposed sliding-window detector based on a similar CNN architecture. We find that R-CNN outperforms OverFeat by a large margin on the 200-class ILSVRC2013 detection dataset. Source code for the complete system is available at http://www.cs.berkeley.edu/~rbg/rcnn.

研究の動機と目的

  • 従来のHOGベースやアンサンブル手法で見られた精度の頭打ちを克服し、PASCAL VOCにおけるオブジェクト検出性能を向上させること。
  • 大規模な画像分類タスクで事前学習された深層CNNが、限られたアノテーション付き検出データでオブジェクト検出に効果的に適応可能かどうかを調査すること。
  • 領域提案と深層特徴の組み合わせが、検出およびセマンティックセグメンテーションの両方のタスクに効果的であるかどうかを評価すること。
  • ILSVRC2013のような大規模ベンチマークにおいて、R-CNNの性能をOverFeatのようなスライディングウィンドウ検出器と比較すること。

提案手法

  • 選択的探索を用いて、1枚の画像あたり約2,000個のカテゴリに依存しない領域提案を生成する。
  • 各領域提案を固定サイズ(227×227)にアフィン変換し、事前学習済みの深層CNN(AlexNet)に入力として与え、深層畳み込み特徴を抽出する。
  • CNN特徴を用いて、20種類のPASCAL VOCクラスの各々に対して分類用のクラス固有の線形SVMを学習する。
  • 2段階のプロセスを用いて、検出データセット上でCNNをエンドツーエンドで微調整する:まずImageNetで事前学習を行い、次にVOCで微調整する際、初期学習率を高く設定する。
  • 予測された領域の局在化を改善するために、ボックス境界回帰を適用する。これにより、局在化誤差が低減される。
  • 同じ領域ベースのCNN特徴抽出および分類パイプラインを用いて、セマンティックセグメンテーションへの拡張も行う。

実験結果

リサーチクエスチョン

  • RQ1従来の手作業で設計された特徴(例:HOG)と比較して、領域提案と組み合わせた深層畳み込みニューラルネットワークが、オブジェクト検出精度を顕著に向上させられるか。
  • RQ2大規模な画像分類タスク(例:ImageNet)で事前学習した後、小規模な検出データセットで微調整することで、オブジェクト検出の性能が著しく向上するか。
  • RQ3大規模な検出ベンチマーク(例:ILSVRC2013)において、R-CNNのアプローチはOverFeatのようなスライディングウィンドウ検出器と比較して、平均平均精度(mAP)でどの程度優れているか。
  • RQ4同じ領域ベースのCNNフレームワークが、セマンティックセグメンテーションタスクにどの程度適応可能か。

主な発見

  • R-CNNはPASCAL VOC 2012検出データセットで53.3%の平均平均精度(mAP)を達成し、前回の最高結果に比べて相対的に30%の向上を示した。
  • ILSVRC2013検出データセットでは、mAPが31.4%に達し、OverFeatの24.3%を大きく上回った。
  • トランスファー学習(ImageNetでの事前学習+VOCでの微調整)により、特にアノテーション付き検出データが限られる状況でも、性能の大幅な向上が見られた。
  • ボックス境界回帰により、局在化誤差が低減され、特に重複や曖昧な物体境界がある場合の検出精度が向上した。
  • このフレームワークはセマンティックセグメンテーションへの一般化にも優れており、領域ベースのCNN特徴が検出およびセグメンテーションの両方のタスクに有効であることを示した。
  • PASCAL VOC 2010では、mAPが53.7%を達成し、空間ピラミッドやBag-of-Visual-Wordsを用いたシステムを大きく上回る最先端の性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。