QUICK REVIEW

[論文レビュー] Tree-Structured Reinforcement Learning for Sequential Object Localization

Zequn Jie, Xiaodan Liang|arXiv (Cornell University)|Mar 8, 2017

Robotics and Sensor-Based Localization参考文献 24被引用数 85

ひとこと要約

Tree-Structured RL は、トップダウンの木でウィンドウを順次探索し、改良と発見をバランスさせることで提案数を抑えつつリコールを向上させる。双方向アクションツリー（スケーリングと翻訳）と深層Q学習を用いて VOC データセットにおける多物体局在化を最適化する。

ABSTRACT

Existing object proposal algorithms usually search for possible object regions over multiple locations and scales separately, which ignore the interdependency among different objects and deviate from the human perception procedure. To incorporate global interdependency between objects into object localization, we propose an effective Tree-structured Reinforcement Learning (Tree-RL) approach to sequentially search for objects by fully exploiting both the current observation and historical search paths. The Tree-RL approach learns multiple searching policies through maximizing the long-term reward that reflects localization accuracies over all the objects. Starting with taking the entire image as a proposal, the Tree-RL approach allows the agent to sequentially discover multiple objects via a tree-structured traversing scheme. Allowing multiple near-optimal policies, Tree-RL offers more diversity in search paths and is able to find multiple objects with a single feed-forward pass. Therefore, Tree-RL can better cover different objects with various scales which is quite appealing in the context of object proposal. Experiments on PASCAL VOC 2007 and 2012 validate the effectiveness of the Tree-RL, which can achieve comparable recalls with current object proposal algorithms via much fewer candidate windows.

研究の動機と目的

グローバルな物体間依存性を活用して提案ウィンドウを減らし、人間のシーン理解を模倣する。
全画像から順序的に複数物体を局在化する木構造のRL フレームワークを提案する。
注目物体の refined と新規発見のバランスをとる報酬設計を開発する。
深層Q学習で長期的な物体局在精度を最大化するポリシーを学習する。
Tree-RL が少ない提案数で競争力のあるリコールを達成し、Fast R-CNN と組み合わせた場合の局在化と検出を改善することを示す。

提案手法

二つのアクション群（サブウィンドウへのスケーリングと現在のウィンドウの翻訳）を用いて、マルコフ決定過程として物体局在化をモデル化する。
状態は現在のウィンドウ特徴、グローバル画像特徴、アクション履歴の連結として構成する。
深層Q-ネットワークを用いてアクション値を推定し、経験再生とε-greedy 探索で訓練する。
各状態でグループごとに最良アクションを選択して二つの次のウィンドウを作成する木構造探索を用い、複数のほぼ最適探索経路を可能にする。
Ground-truth との IoU 改善に基づく報酬 r(s,a) を設計し、初回ヒットボーナス(+5) と IoU 改善の +1/-1 二値信号、さらに IoU>0.5 が初めて達成された場合の +5 ボーナスを含める。
VOC 2007+2012 の trainval を25エポック、ε を1から0.1へアニール、γ=0.9、1エピソードあたり50ステップ、Q学習更新用の大容量リプレイメモリで訓練する。

実験結果

リサーチクエスチョン

RQ1ツリー構造のトップダウン探索と双方向アクション（スケーリングと翻訳）を用いた方法は、単一路 RL や従来の提案法に比べて提案数を抑えつつリコールを改善できるか？
RQ2グローバルな画像コンテキストとアクション履歴を取り入れることで、VOC データセットにおけるスケールを跨ぐ複数物体局在化が改善されるか？
RQ3提案された報酬設計は新しい物体の探索と発見済み物体の refinements のどちらを促進するか？
RQ4Tree-RL を Fast R-CNN と組み合わせた場合、検出性能にどのような影響を与えるか？

主な発見

ステップ数	大/小	IoU=0.5	IoU=0.6	IoU=0.7
31	大	62.2	53.1	40.2
31	小	18.9	15.6	11.2
31	全体	53.8	45.8	34.5
50	大	62.3	53.2	40.4
50	小	19.0	15.8	11.3
50	全体	53.9	45.9	34.8
63	大	78.9	69.8	53.3
63	小	23.2	12.5	4.5
63	全体	68.1	58.7	43.8

Tree-RL は VOC 2007 で RPN に匹敵するリコールを、はるかに少ない提案数で達成する。
Tree-RL は Fast R-CNN（ResNet-101）と組み合わせた場合、RPN よりも高い局在化精度を提供する。
Tree-RL は多くの設定で単一の最適探索経路に比べて優れており、特に大きな物体に対して顕著である。
Tree-RL のリコールは木のレベルが増えるにつれて向上し、スケール全体での物体カバーが改善される。
63ステップで、大きな物体の Tree-RL リコールは IoU=0.5 で 78.9%、IoU=0.6 で 69.8%、IoU=0.7 で 53.3% に達する（VOC07 の例）。
VGG-16 ベースの提案を用いた場合、VOC07/12 で Faster R-CNN ベースラインと競合的な検出 mAP を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。