Skip to main content
QUICK REVIEW

[論文レビュー] Data-efficient Deep Reinforcement Learning for Dexterous Manipulation

Ivaylo Popov, Nicolas Heess|arXiv (Cornell University)|Apr 10, 2017
Reinforcement Learning in Robotics参考文献 25被引用数 117
ひとこと要約

本論文は、データ効率が高くスケーラブルな手法—分散非同期学習、可変リプレイ手順、報酬設計戦略—をDDPGに拡張し、シミュレーションでのエンドツーエンドの高度な操作を可能にする。Legoブロックの積み上げ課題を、環境遷移数10 million未満で達成し、実ロボットでも実現の可能性を示す。

ABSTRACT

Deep learning and reinforcement learning methods have recently been used to solve a variety of problems in continuous control domains. An obvious application of these techniques is dexterous manipulation tasks in robotics which are difficult to solve using traditional control theory or hand-engineered approaches. One example of such a task is to grasp an object and precisely stack it on another. Solving this difficult and practically relevant problem in the real world is an important long-term goal for the field of robotics. Here we take a step towards this goal by examining the problem in simulation and providing models and techniques aimed at solving it. We introduce two extensions to the Deep Deterministic Policy Gradient algorithm (DDPG), a model-free Q-learning based method, which make it significantly more data-efficient and scalable. Our results show that by making extensive use of off-policy data and replay, it is possible to find control policies that robustly grasp objects and stack them. Further, our results hint that it may soon be feasible to train successful stacking policies by collecting interactions on real robots.

研究の動機と目的

  • 一般的な汎用モデルフリーRLアルゴリズムを用いて、シミュレーションでのデックスター操作のエンドツーエンド学習を実証する。
  • リプレイスケジューリングと分散学習を通じてデータ効率とスケーラビリティを向上させる。
  • 複雑な構成的タスクを解くための報酬整形とカリキュラム風の初期状態分布に関する実践的ガイダンスを提供する。

提案手法

  • データ効率を高める二つの改善を加えたDeep Deterministic Policy Gradient (DDPG) の拡張: ネットワーク更新の独立したスケジューリング(リプレイステップ)と、複数のワーカーに跨る分散非同期実装(ADPG-R)。
  • ワーカー間で共有パラメータを用い、データ収集とネットワーク更新を並列化する非同期DPG系(ADPG-R)の導入。
  • 環境ステップごとのミニバッチリプレイ更新回数の変化が学習速度とデータ効率に与える影響を評価。
  • 先行知識を注入する二つの一般的戦略を提案: (1) 構成的タスクのための複合的形作報酬、(2) 指示的な開始状態からの学習によるカリキュラム様の学習信号の創出。
  • MuJoCoで9-DoFアームがレゴブロックを把持・積み上げる学習を対象とした実験設定の詳細を提供。観察空間、作用空間、評価プロトコルを含む。)

実験結果

リサーチクエスチョン

  • RQ1データ効率の高いオフポリシー深層RLを用いて、複雑な高度操作タスクをシミュレーション上でエンドツーエンドに解くことができるか?
  • RQ2リプレイ更新スケジュールと分散学習は、操作ポリシーの学習におけるデータ効率と経過時間の両方にどのような影響を与えるか?
  • RQ3複合形作報酬と指示的開始状態は、複数サブタスク(到達、把握、積み上げ)の学習可能性を、疎い報酬と比べて改善するか?
  • RQ4高度操作タスクでデータ収集と学習を複数のロボットへ拡張する際の実践的なガイドラインは何か?

主な発見

  • 完全な積み上げタスクを、初期から学習するのに環境遷移数10 million未満で、(16台のロボットで約10時間未満)シミュレーション上で実現可能である。
  • 環境ステップごとにリプレイ更新を複数回行うことでデータ効率が劇的に向上し、設定によっては200k–300kの相互作用後に積み上げを実現できる。
  • 複数のワーカーを持つ非同期ADPG-Rは、データ効率を維持しつつ実行時間を大幅に短縮でき、タスクによりスピードアップは異なる。
  • 全体のStackタスクを解くには複合形作報酬が必要で、疎な報酬だけでは失敗する。途中報酬(掴む、到達)を追加すると学習が加速し、成功には全面的な組み合わせが必要。
  • 指示的開始状態(サブゴールに近い開始や解決軌道に沿った開始など)からの学習は探索をさらに改善し、さまざまな初期条件からのポリシー学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。