Skip to main content
QUICK REVIEW

[論文レビュー] Learning Deep Policies for Physics-Based Manipulation in Clutter.

Wissam Bejjani, Rafael Papallas|arXiv (Cornell University)|Mar 21, 2018
Robot Manipulation and Learning参考文献 10被引用数 1
ひとこと要約

本論文では、雑然とした環境における物理ベースの操作を学習するための深層方策を訓練するため、模倣学習と強化学習を組み合わせたハイブリッド学習手法を提案する。最初に、模倣学習によって教師データから行動価値関数を学習し、その後、先読みプランナーや強化学習を用いてそれを精錬することで、不確実なダイナミクスにかかわらず、実世界での高い性能を達成する。本手法は、シミュレーションおよび実世界の雑然とした操作タスクにおいて、ベースラインの模倣学習手法やプランニングのみの手法を上回る性能を発揮する。

ABSTRACT

Uncertainty in modeling real world physics makes transferring traditional open-loop motion planning techniques from simulation to the real world particularly challenging. Available closed-loop policy learning approaches, for physics-based manipulation tasks, typically either focus on single object manipulation, or rely on imitation learning, which inherently constrains task generalization and performance to the available demonstrations. In this work, we propose an approach to learn a policy for physics-based manipulation in clutter, which enables the robot to react to the uncertain dynamics of the real world. We start with presenting an imitation learning technique which compiles demonstrations from a sampling-based planner into an action-value function encoded as a deep neural network. We then use the learned action-value function to guide a look-ahead planner, giving us a control policy. Lastly, we propose to refine the deep action-value function through reinforcement learning, taking advantage of the look-ahead planner. We evaluate our approach in a physics-enabled simulation environment with artificially injected uncertainty, as well as in a real world task of manipulation in clutter.

研究の動機と目的

  • 物理的ダイナミクスの不確実性による、シミュレーションから実世界への運動計画の転送の課題に対処すること。
  • 単一の物体タスクに限定される既存のクローズドループ方策学習手法の限界を克服し、一般化能力が制限された模倣学習に依存する手法の限界を乗り越えること。
  • ロボットが雑然とした環境での操作中に予期せぬ実世界の物理的ダイナミクスに動的に対応できる方策を開発すること。
  • 模倣学習と強化学習を組み合わせることで、利用可能な教師データの範囲を超えたタスクの一般化と性能向上を実現すること。

提案手法

  • サンプリングベースのプランナを用いて多様な教師データを生成し、それを深層ニューラルネットワークに統合して、模倣学習により行動価値関数を符号化する。
  • 学習された行動価値関数を先読みプランナに統合し、実行中に生じる動的変化に適応可能なリアクティブ制御方策を生成する。
  • 先読みプランナを方策の初期化メカニズムとして用いて、強化学習により深層行動価値関数を精錬し、サンプル効率と方策品質を向上させる。
  • 物理的シミュレーション環境に人工的な不確実性を導入し、実世界に類似した条件下での耐性と一般化能力をテストする。
  • 最終的な方策を、不確実性を含むシミュレーション環境および実世界の雑然とした操作タスクで評価する。
  • 模倣学習(初期方策の高速学習)と強化学習(微調整と適応)の相乗効果を活用し、耐性があり一般化可能な制御方策を達成する。

実験結果

リサーチクエスチョン

  • RQ1模倣学習で学習した深層行動価値関数が、雑然とした操作におけるリアルタイム意思決定を支援する先読みプランナを効果的に導くことができるか?
  • RQ2模倣学習と強化学習を組み合わせることで、不確実な物理的ダイナミクスの下で方策の耐性と一般化能力がどのように向上するか?
  • RQ3本手法は、シミュレーションおよび実世界へのタスクへの転送において、純粋な模倣学習やプランニングのみのベースラインをどの程度上回るか?
  • RQ4先読みプランナの統合が、雑然とした環境における動的相互作用への方策の対処能力をどの程度向上させるか?

主な発見

  • 本手法は、ベースラインの模倣学習手法やプランニングのみの手法と比較して、シミュレーションおよび実世界の雑然とした操作タスクにおいて優れた性能を達成する。
  • 学習された行動価値関数と先読みプランナの統合により、実行中の動的変化や不確実性に効果的に対応できる。
  • 強化学習による精錬により、教師データの軌道分布を超えた方策の耐性と一般化能力が著しく向上する。
  • 人工的に注入されたシミュレーションから実世界へのドメインギャップが存在するにもかかわらず、本手法は実世界への成功した転送を示し、物理的不確実性への強い適応性を示す。
  • 本手法は専門家の教師データに依存する度合いを低減しつつも高いタスク成功率を維持しており、サンプル効率とスケーラビリティの向上を示唆する。
  • 最終的な方策は、物体の再配置や予期せぬダイナミクスに対しても耐性を示し、複雑な雑然としたシナリオにおいてベースラインを上回る性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。