QUICK REVIEW

[論文レビュー] Tree-Structured Reinforcement Learning for Sequential Object\n Localization

Zequn Jie, Xiaodan Liang|arXiv (Cornell University)|Mar 8, 2017

Reinforcement Learning in Robotics参考文献 22被引用数 67

ひとこと要約

Tree-RL は深層 Q-network を用いて画像ウィンドウのトップダウン木を探索することにより、複数の物体を順次局所化し、より少ない提案数で競争力のリコールと改善された局所化を達成する。

ABSTRACT

Existing object proposal algorithms usually search for possible object\nregions over multiple locations and scales separately, which ignore the\ninterdependency among different objects and deviate from the human perception\nprocedure. To incorporate global interdependency between objects into object\nlocalization, we propose an effective Tree-structured Reinforcement Learning\n(Tree-RL) approach to sequentially search for objects by fully exploiting both\nthe current observation and historical search paths. The Tree-RL approach\nlearns multiple searching policies through maximizing the long-term reward that\nreflects localization accuracies over all the objects. Starting with taking the\nentire image as a proposal, the Tree-RL approach allows the agent to\nsequentially discover multiple objects via a tree-structured traversing scheme.\nAllowing multiple near-optimal policies, Tree-RL offers more diversity in\nsearch paths and is able to find multiple objects with a single feed-forward\npass. Therefore, Tree-RL can better cover different objects with various scales\nwhich is quite appealing in the context of object proposal. Experiments on\nPASCAL VOC 2007 and 2012 validate the effectiveness of the Tree-RL, which can\nachieve comparable recalls with current object proposal algorithms via much\nfewer candidate windows.\n

研究の動機と目的

独立した局所提案ではなく、オブジェクト間のグローバルな相互依存性を活用することにより提案ウィンドウを削減する動機づけ。
全体の画像から複数の物体を順次局所化する強化学習フレームワークを開発する。
新しい報酬設計を導入して、新しい物体の探索とすでに注視した物体の精練を均衡させる。
広いスケール範囲の物体を扱うための木構造検索を実装する。
Tree-RL が VOC データセットで、提案数を減らしつつ競争力のあるリコールと改善された局所化を達成することを示す。

提案手法

現在のウィンドウをスケーリングすることと局所的に平行移動することという2つの行動群を持つマルコフ決定過程として、マルチオブジェクト局所化を定式化する。
VGG-16 に基づく領域特徴とグローバルな画像特徴、および行動履歴を状態入力として深層Qネットワークに用いる。
学習を導く基盤として IoU の改善に基づく2値報酬 r(s,a) を定義する（IoU>0.5 の初回ヒットボーナスを含む）。
各状態について、両方のアクション群からトップアクションを取って2つの次のウィンドウを展開し、複数のほぼ最適な探索経路を可能にする、木構造検索を採用する。
ε-greedy ポリシー、経験再生、およびターゲットネットワーク風の更新則（Bellman方程式）を用いた深層Q学習で訓練する。
固定長の地域記述子を得るために conv5_3 の ROI pooling を用い、これをグローバルな画像特徴および行動履歴と結合して 13 アクションの Q 値を予測する。

実験結果

リサーチクエスチョン

RQ1深層Q学習によって導かれた木構造のトップダウン検索は、全画像から始めて1つのエピソード内で複数の物体を効率的に局所化できるか？
RQ2グローバル文脈とアクション履歴を木構造検索で組み込むことは、単一路線のRLや従来の提案手法に比べてリコールと局所化精度を向上させるか？
RQ3PASCAL VOC 2007/2012 で、提案数と IoU閾値を変えた場合のリコールはどうなるか？
RQ4二つの分岐アクション選択（スケーリングと翻訳）が、広いスケール範囲の物体の扱いにどのような影響を与えるか？
RQ5Tree-RL を Fast R-CNN と組み合わせた場合、RPN ベースの提案と比較して検出 mAP を改善できるか？

主な発見

Tree-RL は、競合する最先端の提案と同等のリコールを、かなり少ない候補ウィンドウで達成する。
Tree-RL は大きな物体に対して特に、単一の最適探索パスRLよりもほとんどのシナリオで上回る。
31–50 ステップ（ツリーのレベル5–6）で、Tree-RL は IoU閾値 0.5–0.7 の範囲で強いリコールを維持し、特に高い IoU（0.8）で大きな提案に対して利得が顕著になる。
ツリー深さが深まるにつれて Tree-RL のリコールは改善し、多様なほぼ最適な探索経路の利点を、単なる広がり優先の精練よりも示す。
Fast R-CNN（ResNet-101）と組み合わせた場合、VOC 2007 の実験で Tree-RL（VGG-16 提案）は Faster R-CNN（ResNet-101）ベースラインと比較して競争力のあるまたは高い mAP を達成する。
Tree-RL の提案は、浅い VGG-16 を用いても高い検出性能を達成でき、下流の検出のための提案品質が効率的であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。