QUICK REVIEW

[論文レビュー] Fast Policy Learning through Imitation and Reinforcement

Ching-An Cheng, Xinyan Yan|arXiv (Cornell University)|May 26, 2018

Reinforcement Learning in Robotics参考文献 31被引用数 44

ひとこと要約

Loki はいくつかのランダムなステップで模倣学習を挟みつつ、ポリシー勾配強化学習を組み合わせ、収束を速くし、最適でない専門家を上回る能力を提供する。

ABSTRACT

Imitation learning (IL) consists of a set of tools that leverage expert demonstrations to quickly learn policies. However, if the expert is suboptimal, IL can yield policies with inferior performance compared to reinforcement learning (RL). In this paper, we aim to provide an algorithm that combines the best aspects of RL and IL. We accomplish this by formulating several popular RL and IL algorithms in a common mirror descent framework, showing that these algorithms can be viewed as a variation on a single approach. We then propose LOKI, a strategy for policy learning that first performs a small but random number of IL iterations before switching to a policy gradient RL method. We show that if the switching time is properly randomized, LOKI can learn to outperform a suboptimal expert and converge faster than running policy gradient from scratch. Finally, we evaluate the performance of LOKI experimentally in several simulated environments.

研究の動機と目的

専門家がサブオプティマルな場合、それぞれの限界を克服するために、模倣学習 (IL) と強化学習 (RL) の組み合わせを動機づける。
RLとILを一階オラクルの変種として統一されたミラー降下の見方で提供する。
理論的保証を伴う、単純なランダム化された模倣→RL アルゴリズム loki を導入する。
模擬制御タスク全体で loki の経験的性能を示す。

提案手法

RLとILを異なる一階オラクルを用いたミラーデセント更新として定式化する。
共通の枠組み内でポリシー勾配と模倣勾配の更新ルールを導出する。
二相 loki アルゴリズムを定義し、まず K ステップの模倣ベースの更新を行い、その後強化ベースの更新に切り替える。
良好な収束特性を達成するために切替点 K をランダム化する。
適切なランダム性の下で loki が専門家からの直接的なポリシー勾配と同等になり得ることを示す理論的保証を提供する。

実験結果

リサーチクエスチョン

RQ1単純なランダム化済みの IL-then-RL 手順は、サブオプティマルな専門家を凌ぎ、ゼロからの純粋な RL より収束を早めることができるか？
RQ2統一されたミラー降下の観点は、RLとILのアルゴリズムの両方を単一のアプローチの変種として説明できるか？
RQ3loki が専門家ベースのポリシー最適化と一致するまたはそれを上回る理論的保証と実用的条件は何か？
RQ4模倣フェーズの期間をランダム化することは、収束と最終的な性能にどう影響するか？

主な発見

Loki は IL フェーズを経た後に RL を適用することで、標準的なポリシー勾配法より学習を高速化する。
模倣から RL への切替時間を適切にランダム化すると、専門家から直接ポリシー勾配を実行するのと同等の性能を得られる。
Loki は複数のシミュレート環境でサブオプティマルな専門家を上回り、ゼロからの RL より早く収束できる。
本論文は、RLとILが使用する一階オラクルの違いのみであることを示す統一ミラー降下フレームワークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。