QUICK REVIEW

[論文レビュー] Hierarchical Object Detection with Deep Reinforcement Learning

Míriam Bellver, Xavier Giró-i-Nieto|arXiv (Cornell University)|Nov 11, 2016

Reinforcement Learning in Robotics参考文献 19被引用数 86

ひとこと要約

本稿では、深層強化学習を用いた階層的オブジェクト検出フレームワークを提案する。エージェントは順次画像領域に注目することでオブジェクトを検出する。特徴量のクロッピングベースラインを上回る性能を発揮し、各領域に対して高解像度の特徴量を抽出することで、最小限の領域候補数で高い検出性能を達成する。

ABSTRACT

We present a method for performing hierarchical object detection in images guided by a deep reinforcement learning agent. The key idea is to focus on those parts of the image that contain richer information and zoom on them. We train an intelligent agent that, given an image window, is capable of deciding where to focus the attention among five different predefined region candidates (smaller windows). This procedure is iterated providing a hierarchical image analysis.We compare two different candidate proposal strategies to guide the object search: with and without overlap. Moreover, our work compares two different strategies to extract features from a convolutional neural network for each region proposal: a first one that computes new feature maps for each region proposal, and a second one that computes the feature maps for the whole image to later generate crops for each region proposal. Experiments indicate better results for the overlapping candidate proposal strategy and a loss of performance for the cropped image features due to the loss of spatial resolution. We argue that, while this loss seems unavoidable when working with large amounts of object candidates, the much more reduced amount of region proposals generated by our reinforcement learning agent allows considering to extract features for each location without sharing convolutional computation among regions.

研究の動機と目的

上位から下位への階層的オブジェクト検出システムを、強化学習エージェントによってガイドする。
領域の階層的設計（重複あり vs. 重複なし）が検出性能に与える影響を調査する。
2つの特徴量抽出戦略を比較する：領域ごとの特徴量計算 vs. 全画像からの共有特徴マップ。
高解像度の領域固有特徴量が、計算コストの増加にもかかわらず検出性能を向上させるかどうかを評価する。
少数の領域候補数でも、効果的な領域ごとの特徴量抽出が可能であることを示す。

提案手法

知的なエージェントが、深層Q学習を用いて、5つの事前に定義された領域（4つの四分円領域と中央領域）のうち、どの領域に注目するかを決定する。
エージェントは画像をトップダウンで階層的にスキャンし、反復的に注目領域を精緻化することでオブジェクトを検出する。
2つの領域候補戦略が評価される：重複ありと重複なしの領域候補。
2つの特徴量抽出手法が比較される：Image-Zooms（領域ごとに独立して特徴量を計算）と Pool45-Crops（ROIプーリングを介して領域間で特徴マップを共有）。
エージェントは、予測されたバウンディングボックスと真値のIoUに基づくスパarsely denseな報酬を用いて強化学習フレームワークで訓練される。
実験ではPASCAL VOC 2007データセットが使用され、性能評価は平均平均精度（mAP）とリコールで行われる。

実験結果

リサーチクエスチョン

RQ1階層的領域候補の設計（重複あり vs. 重複なし）は、検出性能とリコールにどのように影響するか？
RQ2領域ごとの特徴量抽出（Image-Zooms）は、共有特徴マップ抽出（Pool45-Crops）よりもオブジェクト検出精度で優れているか？
RQ3共有特徴マップを用いる場合、ROIプーリングによる空間解像度の低下が検出性能に及ぼす影響はどの程度か？
RQ4エージェントはオブジェクトを検出するために通常何段階の階層的ステップを必要とするか？これはオブジェクトのスケールと局在化にどのような含意を持つか？
RQ5強化学習エージェントは、少数の領域候補でのみ検出性能を高く達成できるか？このようなスキームの限界は何か？

主な発見

重複ありの領域候補戦略は、精度とリコールの両面で重複なし戦略を顕著に上回る。
領域ごとに独立して特徴量を計算するImage-Zoomsモデルは、Pool45-Cropsモデルよりも優れた検出性能を達成する。
Pool45-Cropsモデルの性能低下は、特に小さなオブジェクトに対して顕著な特徴マップの空間解像度の低下に起因する。
80％以上のオブジェクトが3ステップ未満で検出され、大きなオブジェクトや中央に位置するオブジェクトに対しては高い効率性が示された。
真値ガイド付きの上限モデルでさえリコールが0.5にとどまるため、固定された領域階層構造ではすべてのオブジェクト位置をカバーできないという本質的な制限があることが示された。
計算コストが増加するにもかかわらず、エージェントが考慮する領域候補数が著しく減少するため、領域ごとの特徴量抽出は実用的で有益である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。