QUICK REVIEW

[論文レビュー] Learning to Reach Goals via Iterated Supervised Learning

Dibya Ghosh|arXiv (Cornell University)|Dec 12, 2019

Reinforcement Learning in Robotics参考文献 49被引用数 29

ひとこと要約

この論文では、報酬関数や専門家の示唆、価値関数の推定に依存せずに、自身のロールアウトのみを用いて、エージェントがゴール到達行動をゼロから学習できる、シンプルで安定した強化学習アルゴリズムであるゴール条件付き教師強化学習（GCSL）を提案する。反復的に軌道を再ラベル付けし、最終状態をゴールとして扱い、それら再ラベル付けされた軌道上で教師強化学習によりポリシーをファインチューニングすることで、GCSLは強化学習の目的関数の下界を確実に最適化し、ベンチマークタスクにおいて価値ベースおよびポリシー勾配法を上回る性能を示すとともに、ハイパーパrameterに対してより頑健である。

ABSTRACT

Current reinforcement learning (RL) algorithms can be brittle and difficult to use, especially when learning goal-reaching behaviors from sparse rewards. Although supervised imitation learning provides a simple and stable alternative, it requires access to demonstrations from a human supervisor. In this paper, we study RL algorithms that use imitation learning to acquire goal reaching policies from scratch, without the need for expert demonstrations or a value function. In lieu of demonstrations, we leverage the property that any trajectory is a successful demonstration for reaching the final state in that same trajectory. We propose a simple algorithm in which an agent continually relabels and imitates the trajectories it generates to progressively learn goal-reaching behaviors from scratch. Each iteration, the agent collects new trajectories using the latest policy, and maximizes the likelihood of the actions along these trajectories under the goal that was actually reached, so as to improve the policy. We formally show that this iterated supervised learning procedure optimizes a bound on the RL objective, derive performance bounds of the learned policy, and empirically demonstrate improved goal-reaching performance and robustness over current RL algorithms in several benchmark tasks.

研究の動機と目的

ゴール到達を目的とした安定的でデータ効率の良い強化学習アルゴリズムを開発し、価値ベースおよびポリシー勾配法の脆さを回避すること。
ゴール条件付き強化学習において、疎な報酬、専門家の示唆、価値関数の推定に依存しないこと。
反復的自己模倣を通じて、自身の劣化した軌道から最適なゴール到達行動を学習できるようにすること。
反復的再ラベル付けと模倣プロセスが、強化学習の目的関数の下界を最適化することを形式的に示すこと。
最先端の価値ベースおよびポリシー勾配法と比較して、優れた性能と頑健性を実証すること。

提案手法

各イテレーションで、エージェントは現在のポリシーを用いて、さまざまなゴールに到達するためのロールアウトを収集する。
各軌道は再ラベル付けされ、軌道内の最終状態がゴールとして扱われる。これにより、劣化した行動がその最終状態の成功した模倣例に変換される。
エージェントは、実際に達成されたゴールを条件として、再ラベル付けされた軌道における行動の尤度を最大化するゴール条件付き教師強化学習を実行する。
更新されたポリシーが次のイテレーションで使用され、このプロセスが繰り返され、性能が段階的に向上する。
過去のすべての軌道を再利用するオフポリシー学習を活用することで、重み付けを必要とせず、データ効率を最大化する。
このアルゴリズムは専門家の示唆と併用可能であり、データセットに追加することで学習を加速できる。

実験結果

リサーチクエスチョン

RQ1エージェントは、自身のロールアウトと教師強学習のみを用いて、ゼロから最適なゴール到達行動を学習できるか？
RQ2最終状態をゴールとして扱うように反復的に軌道を再ラベル付けすることで、ポリシー最適化が形式的に改善されるか？
RQ3この自己模倣アプローチの性能と頑健性は、価値ベースおよびポリシー勾配法の強化学習手法と比較してどうか？
RQ4専門家の示唆が利用可能である場合、この手法はそれを効果的に統合できるか？また、そのような状況で既存手法を上回る性能を示すか？
RQ5従来のディープ強化学習アルゴリズムと比較して、ハイパーパrameterに対して感受性が低いと期待できるか？

主な発見

GCSLは、複数のベンチマーク環境において、TD3-HERおよび他の価値ベースおよびポリシー勾配法を上回るゴール到達性能を示した。
ハイパーパrameter設定の下での最終性能の分布が、TD3-HERと比較してGCSLでははるかに集中しており、ハイパーパrameterに対して著しく感受性が低いことが示された。
専門家の示唆で初期化された場合、GCSLはTD3-HERよりも速くかつより顕著な改善を示した。TD3-HERは事前学習段階で誤差蓄積と不安定性に苦しんでいた。
GCSLは、価値関数の推定や複雑な再重み付けスキームを必要とせず、オフポリシーのデータを効果的に活用できる。
このアルゴリズムは、ゴール到達強化学習の目的関数の下界を形式的に最適化するため、反復的自己模倣プロセスに理論的根拠を与える。
時間的に変化するポリシーであっても、GCSLは最短経路に類似した行動を実現でき、学習されたポリシーに inherently 一貫性があることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。