QUICK REVIEW

[論文レビュー] Learning Visual Servoing with Deep Features and Fitted Q-Iteration

Alex X. Lee, Sergey Levine|arXiv (Cornell University)|Mar 31, 2017

Advanced Vision and Imaging被引用数 39

ひとこと要約

本稿では、事前学習済みの深層特徴（VGG-16）と双線形ダイナミクスモデルを用いて、視覚的変動や遮蔽に対しても頑健なターゲット追従を実現する、サンプル効率の高いビジョネーション制御手法を提案する。フィットドQイテレーションと特徴重み付けを組み合わせることで、たった20件の軌道サンプルでの制御が可能となり、標準的なモデルフリー強化学習に比べ100倍以上のサンプル効率の向上を達成するとともに、ピクセルベースやキーポイントベースの手法を上回る性能を示した。

ABSTRACT

Visual servoing involves choosing actions that move a robot in response to observations from a camera, in order to reach a goal configuration in the world. Standard visual servoing approaches typically rely on manually designed features and analytical dynamics models, which limits their generalization capability and often requires extensive application-specific feature and model engineering. In this work, we study how learned visual features, learned predictive dynamics models, and reinforcement learning can be combined to learn visual servoing mechanisms. We focus on target following, with the goal of designing algorithms that can learn a visual servo using low amounts of data of the target in question, to enable quick adaptation to new targets. Our approach is based on servoing the camera in the space of learned visual features, rather than image pixels or manually-designed keypoints. We demonstrate that standard deep features, in our case taken from a model trained for object classification, can be used together with a bilinear predictive model to learn an effective visual servo that is robust to visual variation, changes in viewing angle and appearance, and occlusions. A key component of our approach is to use a sample-efficient fitted Q-iteration algorithm to learn which features are best suited for the task at hand. We show that we can learn an effective visual servo on a complex synthetic car following benchmark using just 20 training trajectory samples for reinforcement learning. We demonstrate substantial improvement over a conventional approach based on image pixels or hand-designed keypoints, and we show an improvement in sample-efficiency of more than two orders of magnitude over standard model-free deep reinforcement learning algorithms. Videos are available at http://rll.berkeley.edu/visual_servoing .

研究の動機と目的

手動による特徴設計を伴わず、視覚的変動（視点、照明、遮蔽）に一般化可能なビジョネーションシステムの開発。
具体的には、20件未満の軌道サンプルで新しいターゲットに迅速に適応できる仕組みの構築。
標準的なモデルフリー深層強化学習を上回るビジョネーションにおけるサンプル効率の向上。
ターゲット追従に適した視覚的特徴を自動で選択する制御方策の学習。
手作業で設計された特徴や解析的ダイナミクスモデルの代わりに、学習された表現と予測モデルを導入。

提案手法

ImageNet分類タスクで事前学習されたVGG-16特徴（ImageNet分類）を視覚状態表現として使用し、手動による特徴設計を回避。
カメラの運動が視覚的特徴の変化に与える影響を予測するため、双線形モデルを用いて特徴空間におけるダイナミクスモデルを構築。
重み付きユークリッド距離を最小化する方策を学習するために、線形Q関数近似器を用いたフィットドQイテレーションを適用。
Q値学習による特徴重み付け機構を導入し、ターゲット追従に特化した判別性の高い特徴に方策が焦点を当てるようにする。
1ステップ先読みを用いたQイテレーションにより、長期的な制御目的を最適化しながら計算の tractability（取り扱いやすさ）を維持。
エキスパートのデモンストレーションをたった20件でエンドツーエンドに訓練することで、極めてデータ効率の高い方策学習を実現。

実験結果

リサーチクエスチョン

RQ1分類タスクで事前学習された深層特徴（VGG-16）を微調整なしでビジョネーションに効果的に応用できるか？
RQ2ビジョネーションにおけるロボットの運動下で、双線形ダイナミクスモデルが特徴の変化を正確に予測できるか？
RQ3学習された特徴重み付けを伴うフィットドQイテレーションが、最小限のデータでロバストなターゲット追従を達成できるか？
RQ4ピクセルベースやキーポイントベースのビジョネーション手法と比較して、本手法のサンプル効率と頑健性はどのように優れているか？
RQ5遮蔽や視点変化が生じる複雑で動的な環境にも一般化可能か？

主な発見

本手法は、複雑な合成ベンチマーク上で、20件のエキスパート軌道サンプルのみで効果的な自動車追従を達成し、極めて優れたデータ効率を示した。
TRPOで学習されたピクセルベースの深層強化学習方策は、はるかに多くのデータを必要とし、性能も劣っていた。
ORBベースおよびC-COTトラッカーに基づくIBVS手法よりも、性能と速度の両面で優れており、後者は1Hzで動作していたのに対し、本手法は16Hzで動作した。
学習されたダイナミクスとフィットドQイテレーションを用いた事前学習済みVGG特徴の使用により、視点変化、照明変動、部分的遮蔽に対しても頑健な性能を発揮した。
標準的なモデルフリー深層強化学習アルゴリズムと比較して、サンプル効率が2桁以上向上した。
フィットドQイテレーションによって学習された特徴重み付け機構は、判別性の高い特徴を的確に選択し、ごみの多いシーンでもロバストなターゲット追従を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。