QUICK REVIEW

[論文レビュー] Pretraining Deep Actor-Critic Reinforcement Learning Algorithms With Expert Demonstrations

Xiaoqin Zhang, Huimin Ma|arXiv (Cornell University)|Jan 31, 2018

Reinforcement Learning in Robotics参考文献 18被引用数 32

ひとこと要約

本論文は、エキスパートのデモンストレーションを用いて、グローバル最適でないと仮定しないアクタ・クリティック強化学習アルゴリズムの新規事前学習手法を提案する。エキスパートの軌道のみを用いて理論的勾配を導出し、連続的および離散的制御環境において、シミュレーション効率を高め、より速く学習を進めることを可能にし、DDPGおよびACERにおける非事前学習ベースラインを上回る性能を発揮する。

ABSTRACT

Pretraining with expert demonstrations have been found useful in speeding up the training process of deep reinforcement learning algorithms since less online simulation data is required. Some people use supervised learning to speed up the process of feature learning, others pretrain the policies by imitating expert demonstrations. However, these methods are unstable and not suitable for actor-critic reinforcement learning algorithms. Also, some existing methods rely on the global optimum assumption, which is not true in most scenarios. In this paper, we employ expert demonstrations in a actor-critic reinforcement learning framework, and meanwhile ensure that the performance is not affected by the fact that expert demonstrations are not global optimal. We theoretically derive a method for computing policy gradients and value estimators with only expert demonstrations. Our method is theoretically plausible for actor-critic reinforcement learning algorithms that pretrains both policy and value functions. We apply our method to two of the typical actor-critic reinforcement learning algorithms, DDPG and ACER, and demonstrate with experiments that our method not only outperforms the RL algorithms without pretraining process, but also is more simulation efficient.

研究の動機と目的

大量のオンラインシミュレーションデータを必要とする深層強化学習の非効率性を解消すること。
エキスパートのデモンストレーションがグローバル最適であると仮定する既存の事前学習手法の制限を克服すること。
エキスパートのデモンストレーションのみを用いて、アクタ・クリティックフレームワークにおけるポリシー関数および価値関数の両方を理論的に妥当な方法で事前学習する手法を開発すること。
事前学習がポリシーのサンプル効率および性能を向上させつつ、事前学習後のポリシー性能を劣化させないこと。
連続的制御および高次元離散的制御環境（例：Atariゲーム）に一般化可能であることを保証すること。

提案手法

定理1に基づき、エキスパートがグローバル最適でなくてもよい条件下で、エキスパートの軌道のみを用いてポリシー勾配と価値推定器の更新を導出する。
方程式8で定義されるポリシー勾配更新を策定し、エキスパートの行動と状態-行動価値を用いてポリシーネットワークを初期化する。
方程式9で定義される価値関数更新を提案し、エキスパートの状態-行動価値推定値を用いてクライアントネットワークを事前学習する。
DDPGおよびACERなどのアクタ・クリティックアルゴリズムに事前学習手順を統合し、同じ学習ループを用いるが、初期化にエキスパートデータを適用する。
ACERの実験では、事前学習後のファインチューニング段階でポリシーの安定性を維持するため、トラスト領域更新を適用する。
ACERでは、二重出力のニューラルネットワークアーキテクチャを用い、ポリシーとQ値を同時に予測する。事前学習は両方のヘッドに適用する。

実験結果

リサーチクエスチョン

RQ1エキスパートのデモンストレーションを用いて、エキスパートがグローバル最適でない場合でも、アクタ・クリティック強化学習におけるポリシー関数および価値関数の両方を事前学習可能か？
RQ2エキスパートデータを用いた事前学習が、DDPGやACERのような深層アクタ・クリティックアルゴリズムにおけるサンプル効率および最終的性能を向上させるか？
RQ3特に性能の低下や安定性の観点から、事前学習段階中および事前学習後のポリシー性能に、事前学習がどのように影響を与えるか？
RQ4提案手法が連続的制御および高次元離散的制御（例：Atariゲーム）の異なる環境に一般化可能か？
RQ5同じ数のシミュレーションステップを用いた場合、事前学習プロセスはエンドツーエンドのRL学習よりもシミュレーション効率が高いか？

主な発見

提案手法を用いたDDPGは、HalfCheetah、Hopper、Walker2dで標準的なDDPGを上回り、事前学習終了後もより速く学習を進める。
HalfCheetahでは、事前学習段階がウォームスタートを提供し、事前学習後に一時的な性能低下が見られるものの、ポリシーは急速にベースラインを上回る。
HopperおよびWalker2dでは、滑らかにした結果から、事前学習により収束がより速くなることが示され、個々の実験では不安定さが見られるが、全体としての性能向上が確認された。
ACERに事前学習を適用した場合、全テスト対象のAtari環境（AirRaid、Breakout、Carnival、CrazyClimber、Gopher）でベースラインACERを上回り、一貫した改善が得られた。
DDPGとは異なり、ACERは事前学習後に性能低下を示さない。これは、事前学習段階でアドバンテージ関数がゼロであるため、ポリシー勾配更新が安定しているためである。
同じ数のシミュレーションステップを用いた場合、提案手法はベースラインRLアルゴリズムよりもシミュレーション効率が高く、より高い性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。