Skip to main content
QUICK REVIEW

[論文レビュー] Residual Learning from Demonstration.

Todor Davchev, Kevin Sebastian Luck|arXiv (Cornell University)|Aug 18, 2020
Robot Manipulation and Learning参考文献 17被引用数 5
ひとこと要約

本稿では、接触および摩擦を伴うロボット挿入タスクの性能向上を目的として、動的移動素子(DMPs)と強化学習に基づく残差補正ポリシーを組み合わせた、残差学習による教師あり学習(rLfD)というフレームワークを提案する。本手法は、ロボットの全姿勢を直接タスク空間で処理し、シミュレーションおよび現実世界の両方の挿入タスクにおいて、DMPの一般化性能と成功確率を顕著に向上させる。

ABSTRACT

Contacts and friction are inherent to nearly all robotic manipulation tasks. Through the motor skill of insertion, we study how robots can learn to cope when these attributes play a salient role. In this work we propose residual learning from demonstration (rLfD), a framework that combines dynamic movement primitives (DMP) that rely on behavioural cloning with a reinforcement learning (RL) based residual correction policy. The proposed solution is applied directly in task space and operates on the full pose of the robot. We show that rLfD outperforms alternatives and improves the generalisation abilities of DMPs. We evaluate this approach by training an agent to successfully perform both simulated and real world insertions of pegs, gears and plugs into respective sockets.

研究の動機と目的

  • 接触が豊富なロボット操作、特に摩擦と柔軟性を伴う挿入タスクの課題に対処すること。
  • 接触ダイナミクスの存在下でも、行動クラーニングに基づくDMPの一般化性能とロバスト性を向上させること。
  • DMP軌道を残差強化学習によって補正するタスク空間ポリシーを開発すること。
  • 本フレームワークを、さまざまな幾何形状(ピン、ギア、プラグ)を有するシミュレーションおよび現実世界の挿入タスクで検証すること。

提案手法

  • フレームワークは、行動クラーニングによる学習を経て初期軌道ポリシーを生成する動的移動素子(DMPs)を用いる。
  • リアルタイムでDMPが生成する軌道を精緻化するため、強化学習を用いて残差補正ポリシーを学習する。
  • 残差ポリシーはロボットの全6次元姿勢を直接タスク空間で操作し、接触時の高精度な制御を可能にする。
  • DMPとRLを階層的に統合する方法を採用し、DMPが事前知識としての運動構造を提供し、RLポリシーが接触に起因するずれを補正する。
  • 残差ポリシーはシミュレーションでエンドツーエンドに学習され、最小限のドメインランダマイゼーションを用いて現実世界に転送される。
  • 接触力の変動や幾何的公差のばらつきに適応できることで、安全かつロバストな挿入が可能になる。

実験結果

リサーチクエスチョン

  • RQ1DMPとRLのハイブリッドアプローチは、純粋な行動クラーニングに比べ、接触が豊富なロボット挿入タスクにおける一般化性能を向上させることができるか?
  • RQ2タスク空間における残差補正は、接触ダイナミクスや摩擦に対するロバスト性をどのように向上させるか?
  • RQ3シミュレーションで学習したポリシーが、幾何形状が異なる現実世界の挿入タスクにどの程度一般化できるか?
  • RQ4DMPとRLを統合した手法は、代替の模倣学習または純粋な強化学習ベースのベースラインと比較して、成功確率およびサンプル効率の面でどのように差をつけるか?

主な発見

  • rLfDフレームワークは、標準的なDMPおよび代替の模倣学習ベースラインと比較して、シミュレーションおよび現実世界の両方の挿入タスクで高い成功確率を達成した。
  • 残差補正ポリシーは一般化性能を顕著に向上させ、ピン、ギア、プラグなど多様な幾何形状に対しても成功した挿入を可能にした。
  • 最小限のシミュレーションから現実へのドメインシフトで効果的に一般化でき、接触ダイナミクスに対するロバスト性を示した。
  • DMPとRLを統合することで、強化学習を初期から学習するのと比較して、収束が速く、学習がより安定した。
  • タスク空間における残差ポリシーにより、接触時の精密な適応が可能となり、誤挿入やジャマのリスクが低減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。