Skip to main content
QUICK REVIEW

[論文レビュー] The Ingredients of Real-World Robotic Reinforcement Learning

Henry Zhu, Justin Yu|arXiv (Cornell University)|Apr 27, 2020
Robot Manipulation and Learning参考文献 39被引用数 28
ひとこと要約

本論文では、人為的な報酬関数やリセット、計測装置を一切用いずに、rawな視覚観測からデキストラスな操作スキルを学習する現実世界向けロボット強化学習システムR3Lを提案する。自己教師付き表現学習とランダム化された摂動制御器を組み合わせることで、実際の3本指ロボットハンド上で自律的かつ継続的な学習を実現し、人為的介入なしにバルブ回転やビーズ操作といったタスクを、多様な初期状態から成功させた。

ABSTRACT

The success of reinforcement learning for real world robotics has been, in many cases limited to instrumented laboratory scenarios, often requiring arduous human effort and oversight to enable continuous learning. In this work, we discuss the elements that are needed for a robotic learning system that can continually and autonomously improve with data collected in the real world. We propose a particular instantiation of such a system, using dexterous manipulation as our case study. Subsequently, we investigate a number of challenges that come up when learning without instrumentation. In such settings, learning must be feasible without manually designed resets, using only on-board perception, and without hand-engineered reward functions. We propose simple and scalable solutions to these challenges, and then demonstrate the efficacy of our proposed system on a set of dexterous robotic manipulation tasks, providing an in-depth analysis of the challenges associated with this learning paradigm. We demonstrate that our complete system can learn without any human intervention, acquiring a variety of vision-based skills with a real-world three-fingered hand. Results and videos can be found at https://sites.google.com/view/realworld-rl/

研究の動機と目的

  • 人為的介入なしに現実世界環境で継続的かつ自律的なロボット強化学習を可能にすること。
  • 手作業で設計された報酬関数や手動リセット、環境の計測装置への依存を排除すること。
  • rawなセンサ入力と自己教師付き報酬信号から学習するスケーラブルなシステムの開発。
  • エピソード的でない現実世界の設定において、探索とポリシー学習の課題に対処すること。

提案手法

  • rawなRGB画像から意味のある状態表現を抽出するために自己教師付き表現学習(VAE)を用いる。
  • 事前に定義された状態に依存しない、ランダム化された摂動制御器を採用し、継続的な探索を可能にする。
  • VICE(Visual Inverse Control)を活用して、報酬設計なしに容易に収集可能なゴール画像から報酬関数を学習する。
  • SAC(Soft Actor-Critic)を用いて、自己教師付き報酬とrawな観測からポリシーを訓練し、エンドツーエンドの学習を実現する。
  • エピソード的リセットなしに多様な初期設定に一般化可能なゴール条件付きポリシーを導入する。
  • RGBカメラのみを入力として用い、実際のD’Clawロボットハンドにシステムをデプロイする。

実験結果

リサーチクエスチョン

  • RQ1人為的な報酬関数や環境の計測装置なしに、ロボットシステムが現実世界で複雑な操作スキルを学習するにはどうすればよいか?
  • RQ2手動リセットなしに、エピソード的でない継続的な現実世界訓練において、効果的な探索とポリシー学習を実現するメカニズムは何か?
  • RQ3rawピクセルからの自己教師付き表現学習が、デキストラスな操作タスクの頑健なポリシー学習を可能にするか?
  • RQ4固定またはゴールベースのリセット戦略と比較して、ランダム化された摂動制御器は、サンプル効率性および性能の頑健性においてどのように差をつけるか?
  • RQ5地面の状態や報酬信号が存在しない状況下で、自己教師付きの監視とrawなセンサ入力のみから学習できる限界はどこか?

主な発見

  • R3Lシステムは、人為的介入なしに実際のロボットハンド上でデキストラスな操作タスク(バルブ回転およびビーズ操作)を成功させた。
  • 摂動制御器を用いて訓練されたポリシーは、ほぼすべての初期状態から成功を達成したが、VICEベースラインは大多数の初期状態で失敗した。
  • バルブ回転タスクでは、17時間の現実世界訓練後、ポリシーの収束を達成した。これは複雑なタスクにおけるスケーラビリティを示している。
  • ビーズ操作タスクでは、5時間の訓練後、機能的なポリシーが学習され、多様な初期状態からの評価ロールアウトで一貫した成功が確認された。
  • 初期状態の分布シフトに対しても頑健であった。評価時に任意の初期位置からでもポリシーが良好に一般化した。
  • アブレーションスタディにより、自己教師付き表現学習と摂動制御器の両方が性能に不可欠であることが確認され、欠落実験では著しい成功確率の低下が観察された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。