QUICK REVIEW

[論文レビュー] Modular Deep Q Networks for Sim-to-real Transfer of Visuo-motor Policies

Fangyi Zhang, Jürgen Leitner|arXiv (Cornell University)|Oct 21, 2016

Reinforcement Learning in Robotics参考文献 27被引用数 33

ひとこと要約

本論文では、視覚的運動方策のシミュレーションから現実世界への転送を可能にするモジュラーな深層Qネットワークフレームワークを提案する。このフレームワークは、認識と制御を分離することで、最小限の現実世界データでのエンドツーエンドのファインチューニングを実現する。認識と制御の間にボトルネックを導入することで、実世界での到達精度が1.6ピクセルに達し、ナーブな転送よりも21.7%優れている。これは、わずか20回の現実世界試行で実現された、効果的なハンドアイ協調制御を示している。

ABSTRACT

While deep learning has had significant successes in computer vision thanks to the abundance of visual data, collecting sufficiently large real-world datasets for robot learning can be costly. To increase the practicality of these techniques on real robots, we propose a modular deep reinforcement learning method capable of transferring models trained in simulation to a real-world robotic task. We introduce a bottleneck between perception and control, enabling the networks to be trained independently, but then merged and fine-tuned in an end-to-end manner to further improve hand-eye coordination. On a canonical, planar visually-guided robot reaching task a fine-tuned accuracy of 1.6 pixels is achieved, a significant improvement over naive transfer (17.5 pixels), showing the potential for more complicated and broader applications. Our method provides a technique for more efficient learning and transfer of visuo-motor policies for real robotic systems without relying entirely on large real-world robot datasets.

研究の動機と目的

ロボットの視覚的運動方策を学習するための、大規模な現実世界データセットへの依存を低減すること。
認識と制御の学習を分離することでシミュレーションから現実世界への転送性能を向上させるとともに、エンドツーエンドのファインチューニングを可能にすること。
わずかな現実世界の画像のみを用いて、シミュレーションで学習した方策を現実世界のロボットシステムに効率的に適応できること。
遮蔽やターゲットの変動といった現実世界の条件下での手法の頑健性を評価すること。
モジュラーなトレーニングと重み付きエンドツーエンドのファインチューニングが、ナーブな転送と比較して顕著にハンドアイ協調制御を向上させることを示すこと。

提案手法

認識と制御モジュールを分離するボトルネック層を備えたモジュラーな深層Qネットワークアーキテクチャを導入する。
シミュレーション内で深層Q学習を用いて、認識と制御のネットワークを独立して事前学習する。
2つのモジュールを統合したネットワークを構築し、シミュレーションデータと現実世界データの両方をバランスさせる重み付き損失関数を用いてエンドツーエンドでファインチューニングする。
カスケードフォールディングを防ぎ、現実世界への一般化性能を向上させるために、シミュレーションデータと現実世界データの混合を用いてファインチューニングを行う。
制御学習中にキネマティックガイドポリシー（K-GPS）を用いることで、サンプル効率を向上させ、センシングノイズに対するロバストネスを高める。
わずか20回の現実世界試行を用いて、シミュレーションで学習した認識ネットワークを現実世界に適応させ、現実世界データの必要最小限に抑える。

実験結果

リサーチクエスチョン

RQ1モジュラーな深層強化学習アプローチは、最小限の現実世界データで、視覚的運動方策のシミュレーションから現実世界への転送を改善できるか？
RQ2重み付き損失を用いたエンドツーエンドのファインチューニングは、認識と制御のハンドアイ協調制御をどの程度向上させるか？
RQ3わずか数枚の現実世界画像のみで、シミュレーションで学習した認識ネットワークが現実世界のシナリオにどの程度一般化できるか？
RQ4遮蔽やターゲットの曖昧さといった現実世界の課題に対して、本手法はどの程度の性能を示すか？
RQ5モジュラーなアーキテクチャは、統合学習やナーブな転送と比較して、性能を維持または向上させられるか？

主な発見

提案手法は、実世界での到達精度が1.6ピクセルに達し、ナーブな転送（17.5ピクセル）よりも21.7%優れていた。
重み付き損失を用いたエンドツーエンドのファインチューニングは、ハンドアイ協調制御を顕著に向上させ、ナーブな結合やナーブなファインチューニングを上回った。
わずか20回の現実世界試行でも、トレーニング中に見られなかったターゲットに対して、適応した認識ネットワークは良好に一般化した。
遮蔽に対しては頑健性を示した：未確認の遮蔽パターンに対しても大多数のターゲットが到達可能であったが、非遮蔽状態と比較して誤差が約2倍に増加した。
全テストネットワーク（EE1を除く）は、現実世界試行で98%～100%の成功率を達成しており、高い信頼性を示した。
わずかな現実世界画像のみを用いて、シミュレーションから現実世界への認識ネットワークの適応が可能であり、シミュレーションにおける視覚的忠実度がわずかであっても、効果的な転送が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。