QUICK REVIEW

[論文レビュー] Model-Augmented Actor-Critic: Backpropagating through Paths

Ignasi Clavera, Violet Fu|arXiv (Cornell University)|May 16, 2020

Reinforcement Learning in Robotics参考文献 34被引用数 40

ひとこと要約

MAAC は将来のステップにわたって微分可能な学習モデルを介して勾配をバックプロパゲートし、長期的なトレーニングを安定化させるために端末値を用い、サンプル効率を向上させ、最先端のモデルベースおよびモデルフリー強化学習手法と比較して漸近性能で競争力を発揮します。

ABSTRACT

Current model-based reinforcement learning approaches use the model simply as a learned black-box simulator to augment the data for policy optimization or value function learning. In this paper, we show how to make more effective use of the model by exploiting its differentiability. We construct a policy optimization algorithm that uses the pathwise derivative of the learned model and policy across future timesteps. Instabilities of learning across many timesteps are prevented by using a terminal value function, learning the policy in an actor-critic fashion. Furthermore, we present a derivation on the monotonic improvement of our objective in terms of the gradient error in the model and value function. We show that our approach (i) is consistently more sample efficient than existing state-of-the-art model-based algorithms, (ii) matches the asymptotic performance of model-free algorithms, and (iii) scales to long horizons, a regime where typically past model-based approaches have struggled.

研究の動機と目的

learned dynamics の微分可能性を活用したモデルベースのポリシー最適化手法を動機づけ、開発する。
モデルフリー手法の漸近的性能を維持または一致させつつ、サンプル複雑さを削減する。
Actor-critic フレームワーク内で端末値関数を用いて長期 horizon の学習を安定化させる。
勾配誤差とモデルおよび値関数近似誤差を結びつける理論的保証を提供する。

提案手法

学習済みモデルを介して H ステップにわたりバックプロパゲートするモデル拡張 Actor-Critic 目的: J_pi(theta)=E[ sum_{t=0}^{H-1} gamma^t r(s_t) + gamma^H Q_hat(s_H, a_H) ]。
微分可能なモデルとポリシーを介して勾配を計算するためにパスウェイ微分（再パラメータ化）を用いる。
端末 Q-関数で勾配の不安定さを防ぎ、H をモデルベース信号とモデルフリー信号をバランスさせるホライズン超パラメータとして扱う。
最大尤度で訓練しつつ、エピステミックとアレータシックな不確実性を捉えるブ bootstrap アンサンブルのダイナミクスモデルを訓練する。
値の推定を安定化させる2つの Q-関数を学習し、値学習のために SEVE スタイルのターゲットを使用する。

実験結果

リサーチクエスチョン

RQ1 MAAC はサンプル効率と漸近的性能の点で最先端のモデルベースおよびモデルフリーの基準値を上回るか？
RQ2 MAAC の勾配誤差はモデルおよび Q-関数微分誤差と horizon H にどう関連するか？
RQ3 モデルを介してのバックプロパゲーションは性能に不可欠か、推論時の計画（MPC）は結果にどう影響するか？
RQ4 モデルおよび関数近似誤差を考慮した際、MAAC が単調な改善保証を提供できるか？
RQ5 モデルのアンサンブルと STEVE 風ターゲットの導入が訓練の安定性と性能に与える影響は？

主な発見

Environment	MAAC+MPC	MAAC
AntEnv	3.97e3 ± 1.48e3	3.06e3 ± 1.45e3
HalfCheetahEnv	1.09e4 ± 9.45e1	1.07e4 ± 2.53e2
HopperEnv	2.8e3 ± 1.1e1	2.77e3 ± 3.31e0
Walker2dEnv	1.76e3 ± 7.8e1	1.61e3 ± 4.04e2

MAAC は四つの MuJoCo ベースのベンチマークにおいて MBPO、STEVE、SVG(1)、SAC と比較して、優れたサンプル効率と漸近的性能を達成。
勾配誤差の挙動は理論的境界と一致する：短い horizon はモデル微分誤差を減らし、長い horizon はそれを拡大する。
アブレーション実験により、モデルを介したバックプロパゲーション（非ゼロの horizon H）が強い性能にとって決定的であることが示唆される；STEVE ターゲットは安定性を支援するが影響は小さい。
テスト時に MPC 微調整ステップを用いると難しいタスクで追加の性能向上が得られるが、単純な環境では利得は小さい。
モデルアンサンブルと端末値関数を組み合わせた MAAC はモデルバイアスを効果的に緩和し、長期 horizon の計画を安定性を犠牲にすることなく可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。