QUICK REVIEW

[論文レビュー] Leveraging Demonstrations for Deep Reinforcement Learning on Robotics Problems with Sparse Rewards

Matej Vecerík, Todd Hester|arXiv (Cornell University)|Jul 27, 2017

Reinforcement Learning in Robotics参考文献 20被引用数 509

ひとこと要約

本論文は、デモンストレーションを用いた DDPG の拡張（DDPGfD）を提案し、ロボット挿入タスクにおけるスパース報酬から学習する。リプレイバッファには優先サンプリング、n-ステップリターン、複数回の更新トレーニングを用いて、シミュレーションと実機の双方で標準の DDPG を上回る。

ABSTRACT

We propose a general and model-free approach for Reinforcement Learning (RL) on real robotics with sparse rewards. We build upon the Deep Deterministic Policy Gradient (DDPG) algorithm to use demonstrations. Both demonstrations and actual interactions are used to fill a replay buffer and the sampling ratio between demonstrations and transitions is automatically tuned via a prioritized replay mechanism. Typically, carefully engineered shaping rewards are required to enable the agents to efficiently explore on high dimensional control problems such as robotics. They are also required for model-based acceleration methods relying on local solvers such as iLQG (e.g. Guided Policy Search and Normalized Advantage Function). The demonstrations replace the need for carefully engineered rewards, and reduce the exploration problem encountered by classical RL approaches in these domains. Demonstrations are collected by a robot kinesthetically force-controlled by a human demonstrator. Results on four simulated insertion tasks show that DDPG from demonstrations out-performs DDPG, and does not require engineered rewards. Finally, we demonstrate the method on a real robotics task consisting of inserting a clip (flexible object) into a rigid object.

研究の動機と目的

スパース報酬を伴う挑戦的なロボット操作タスクにおいて、デモンストレーションが報酬設計（リワードシェーピング）を置換できることを示す。
オフポリシー強化学習フレームワークへデモンストレーションを組み込み、データ効率と学習の安定性を改善する。
デモンストレーションを用いた場合に、優先リプレイ、n-step リターン、および繰り返し更新が学習を強化することを示す。
4つのシミュレーション挿入タスクと1つの実ロボット挿入タスクで手法を検証する。

提案手法

訓練を開始する前に、デモンストレーションからの遷移をリプレイバッファに組み込むように DDPG を拡張する。
デモンストレーションとエージェントの遷移の両方を、より有益な体験にバイアスをかけてサンプリングするように優先経験リプレイを用いる。
クリティックの損失として1ステップとnステップリターンを組み合わせ、スパース報酬を軌跡全体に伝播させる。
環境ステップごとに複数の勾配更新を行い、データ効率を高めつつ安定性を維持する。
安定性のためにアクターとクリティックネットワークにL2正則化を適用する。
過大な力を抑制するためにインピーダンスコントローラを介して実ロボット実験で安全上の制約を実装する。

実験結果

リサーチクエスチョン

RQ1デモンストレーションは、スパースリワードのロボット挿入タスクにおいて手工的に設計されたシェーピング報酬を置換できるか？
RQ2優先リプレイを用いたオフポリシーフレームワークへデモンストレーションを組み込むことで、標準の DDPG より学習を加速し性能を改善できるか？
RQ31ステップとnステップリターンは、デモンストレーションを強化したRLにおいてスパース報酬を伝播する上でどのように寄与するか？
RQ4デモンストレーションデータ量を変化させた場合の学習効率と最終性能への影響は？
RQ5シミュレーションタスクと実ロボット実験の結果は一貫しているか？

主な発見

DDPGfD は、DDPG が適切に整えられたシェーピング報酬を用いた場合でも、すべての評価タスクで DDPG より優れている。
DDPGfD はスパース報酬でも効果的に学習し、しばしばシェーピング報酬の性能に匹敵するかそれを上回る。
クリップ挿入タスクでは、DDPGfD はデモンストレーションのみより2〜4倍速く挿入を学習し、訓練の安定性も広く向上。
1つのデモンストレーションでスパース報酬のクリップ挿入タスクを解くことができ、50〜100のデモ以後はリターンが逓減する。
実ロボット実験では、DDPGfD が設計された報酬なしで堅牢な挿入方針を達成し、シェーピング報酬を用いたDDPGを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。