QUICK REVIEW

[論文レビュー] Soft Proposal Networks for Weakly Supervised Object Localization

Yi Zhu, Yanzhao Zhou|arXiv (Cornell University)|Sep 6, 2017

Advanced Neural Network Applications参考文献 30被引用数 24

ひとこと要約

本稿では、弱教師ありオブジェクト検出のための、ほぼコストフリーで微分可能であるオブジェクト候補を標準的な畳み込みニューラルネットワーク（CNN）に統合する、エンドツーエンドの新規フレームワークであるソフトプロポーザルネットワーク（SPNs）を提案する。深層特徴から反復的にソフトプロポーザルを進化させ、画像ラベルのみを用いてそれらとネットワーク重みを同時に最適化することで、PASCAL VOC、MS COCO、ImageNetで最先端の性能を達成し、局所化精度と特徴表現を著しく向上させつつ、0.9ms/画像という高い速度を維持する。

ABSTRACT

Weakly supervised object localization remains challenging, where only image labels instead of bounding boxes are available during training. Object proposal is an effective component in localization, but often computationally expensive and incapable of joint optimization with some of the remaining modules. In this paper, to the best of our knowledge, we for the first time integrate weakly supervised object proposal into convolutional neural networks (CNNs) in an end-to-end learning manner. We design a network component, Soft Proposal (SP), to be plugged into any standard convolutional architecture to introduce the nearly cost-free object proposal, orders of magnitude faster than state-of-the-art methods. In the SP-augmented CNNs, referred to as Soft Proposal Networks (SPNs), iteratively evolved object proposals are generated based on the deep feature maps then projected back, and further jointly optimized with network parameters, with image-level supervision only. Through the unified learning process, SPNs learn better object-centric filters, discover more discriminative visual evidence, and suppress background interference, significantly boosting both weakly supervised object localization and classification performance. We report the best results on popular benchmarks, including PASCAL VOC, MS COCO, and ImageNet.

研究の動機と目的

トレーニング時に画像レベルのラベルしか入手できない弱教師ありオブジェクト検出の課題に対処すること。
オブジェクト候補生成と分類を分離するパイプライン型アプローチの限界を克服し、最適化を統合できないこと。
あらゆる標準的なCNNアーキテクチャにスムーズに統合可能な、ほぼコストフリーで微分可能なプロポーザルメカニズムを導入すること。
ネットワークが判別力のあるオブジェクト部分に注目し、背景の干渉を抑制できるように、局所化と分類の両方の性能を向上させること。
弱教師ありオブジェクトプロポーザルが、ネットワークパラメータと同時に最適化されると、ベンチマーク全体にわたって特徴学習と一般化性能が向上することを示すこと。

提案手法

深層特徴マップの各受容野に対してオブジェクトネススコアを生成するソフトプロポーザル（SP）モジュールを設計し、高価な領域候補生成を回避する。
ソフトプロポーザルマップを特徴マップに再投影することで、微分可能で注意メカニズムに類似した機構を構築し、情報量の多い領域を強調する。
バックプロパゲーション中にプロポーザルを反復的に進化させ、画像ラベルによる監視のもとで、プロポーザルとネットワーク重みがエンドツーエンドで共に最適化されるようにする。
既存のCNN（例：VGG、GoogLeNet、CNN-S）にSPモジュールを統合してソフトプロポーザルネットワーク（SPNs）を構築し、元のアーキテクチャを維持しながらプロポーザル機能を追加する。
しきい値チューニングを必要としない、すべての空間的位置におけるプロポーザルと活性化の確率的融合を用いて、情報を集約する。
標準的な交差エントロピー損失を画像ラベルで使用してSPNsを学習させ、バウンディングボックスアノテーションなしでフィルタとプロポーザルの両方を同時に最適化可能にする。

実験結果

リサーチクエスチョン

RQ1標準的なCNNに、微分可能でほぼコストフリーなオブジェクトプロポーザルメカニズムを統合し、エンドツーエンドの弱教師ありオブジェクト検出が可能になるか？
RQ2画像ラベルによる監視のもとで、オブジェクトプロポーザルとネットワークパラメータを同時に最適化することで、パイプライン型または非微分可能な手法と比較して、局所化精度が向上するか？
RQ3提案されたソフトプロポーザルメカニズムが、背景の共起パターンを抑制しながら、より細分化された判別力のある視覚的証拠（例：足、テクスチャ）をネットワークが発見するのを支援できるか？
RQ4弱教師ありプロポーザル機能の統合が、局所化と分類の両方の性能をどの程度向上させるか？
RQ5PASCAL VOC、COCO、ImageNetなどのベンチマークにおいて、速度、精度、一般化性能の観点から、本手法は最先端のアプローチと比較してどの程度優れているか？

主な発見

PASCAL VOC2012では、最先端手法より5.8% mAP向上し、MS COCO2014ではマルチスケールテストなしで6% mAP向上を達成した。
ILSVRC2014バリデーションセットでは、バウンディングボックスの局所化誤差をFb [35]の38.8%から36.3%に低減し、ContextLocと比較して平均CorLocで約5%優れた性能を示した。
'dog'、'cat'、'horse'、'person'の各クラスでは、比較手法と比較して局所化精度が20–30%向上し、細分化されたオブジェクト部分を検出する優れた能力を示した。
ImageNet ILSVRC2014では、SP-GoogLeNetGAPがトップ-1誤差率を35.0%から33.5%に1.5%低下させ、SPNsが分類タスクの特徴表現を向上させることを示した。
COCO2014およびVOC2007で微調整した際、SP-GoogLeNetGAPはベースラインを4.5%上回り、強力な一般化能力を確認した。
SPモジュールは極めて効率的で、1画像あたり約0.9msの計算時間であり、RPNの10倍速く、EdgeBoxesの200倍速いため、リアルタイムアプリケーションに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。