QUICK REVIEW

[論文レビュー] Learning by Playing - Solving Sparse Reward Tasks from Scratch

Martin Riedmiller, Roland Hafner|arXiv (Cornell University)|Feb 28, 2018

Reinforcement Learning in Robotics参考文献 40被引用数 154

ひとこと要約

Scheduled Auxiliary Control (SAC-X) を導入した階層的 RL フレームワークで、補助タスクのセットと学習済みスケジューラを用いて探索と方策学習を促進し、スクラッチから複雑な疎報酬タスクを学習する。

ABSTRACT

We propose Scheduled Auxiliary Control (SAC-X), a new learning paradigm in the context of Reinforcement Learning (RL). SAC-X enables learning of complex behaviors - from scratch - in the presence of multiple sparse reward signals. To this end, the agent is equipped with a set of general auxiliary tasks, that it attempts to learn simultaneously via off-policy RL. The key idea behind our method is that active (learned) scheduling and execution of auxiliary policies allows the agent to efficiently explore its environment - enabling it to excel at sparse reward RL. Our experiments in several challenging robotic manipulation settings demonstrate the power of our approach.

研究の動機と目的

希薄な外部報酬がある環境で補助タスクを活用して学習を促進する。
補助の意図と主要タスクを共同で学習する階層的 RL フレームワークを提案する。
探索と外部タスクの性能を高めるために補助方策を順次配置するスケジューラを開発する。
シミュレーションから実機ロボットへの移行性とサンプル効率の良い学習をデモする。

提案手法

主たる疎報酬MDPを、補助報酬のベクトルと対応する意図方策を付加した形式で定義する。
オフポリシー勾配更新と共有リプレイバッファを用いて、補助タスクごとの意図と主要タスクの学習を行う。
タスク選択に基づくボルツマン風ポリシーを用いてエピソード内の意図をシーケンスするスケジューラを訓練する。
Retrace を用いた安定した学習のために全ての意図でオフポリシーQ関数を評価する。
スケジューリングをカリキュラム学習や階層的RLと関連づけ、学習済みサブポリシーの安全な組み合わせを可能にする。

実験結果

リサーチクエスチョン

RQ1補助的で意味的に根拠のあるタスクは、スパース報酬の RL セットアップにおける探索と学習を加速するか。
RQ2補助意図間の切替のための学習済みスケジューラは、一様またはランダムなスケジューリングと比べて外部タスクの性能を改善するか。
RQ3SAC-X は外部報酬が限定された状態で、スタックや清掃を含む複雑なロボット操作タスクをスクラッチから解くことができるか。
RQ4実ロボット実験では学習速度とデータ効率の観点でどうか。
RQ5複数の外部タスクにわたる補助タスクと外部タスクの性能の関係は。

主な発見

SAC-U および SAC-Q は、ブロック積みなどのスパースな外部タスクを信頼性高く学習し、これらのタスクで DDPG は失敗する。
学習済みスケジューラ（SAC-Q）は一般に学習を加速し、均一スケジューリング（SAC-U）よりわずかに良い最終性能を達成できる。
本手法は生データピクセル入力と特徴量の両方からの学習を可能にし、ピクセルからの学習は遅いながらも成功。
補助意図のスケジューリングは学習時間を著しく短縮し、非スケジュール基準（IUA）と比較して信頼性を向上させる。
実ロボット実験ではブロックを持ち上げる学習は実時間学習約10時間で能力を得て、試行で高い成功を示す。
SAC-Q は複数の外部タスクと補助タスクを全て学習する一方で、ベースラインは失敗するような、より複雑なタスク（例: 複数物体の片付け）へも拡張できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。