QUICK REVIEW

[論文レビュー] Relative Entropy Regularized Policy Iteration

Abbas Abdolmaleki, Jost Tobias Springenberg|arXiv (Cornell University)|Dec 5, 2018

Reinforcement Learning in Robotics参考文献 35被引用数 45

ひとこと要約

オフポリシー actor-critic RL 法は、Q値推定を交互に行い、KL正則化を用いた局所的非パラメトリック政策改善と、デカップル化したガウス更新を用いたパラメトリック政策適合を組み合わせ、複数の連続制御ベンチマークで強力な結果を達成する。

ABSTRACT

We present an off-policy actor-critic algorithm for Reinforcement Learning (RL) that combines ideas from gradient-free optimization via stochastic search with learned action-value function. The result is a simple procedure consisting of three steps: i) policy evaluation by estimating a parametric action-value function; ii) policy improvement via the estimation of a local non-parametric policy; and iii) generalization by fitting a parametric policy. Each step can be implemented in different ways, giving rise to several algorithm variants. Our algorithm draws on connections to existing literature on black-box optimization and 'RL as an inference' and it can be seen either as an extension of the Maximum a Posteriori Policy Optimisation algorithm (MPO) [Abdolmaleki et al., 2018a], or as an extension of Trust Region Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES) [Abdolmaleki et al., 2017b; Hansen et al., 1997] to a policy iteration scheme. Our comparison on 31 continuous control tasks from parkour suite [Heess et al., 2017], DeepMind control suite [Tassa et al., 2018] and OpenAI Gym [Brockman et al., 2016] with diverse properties, limited amount of compute and a single set of hyperparameters, demonstrate the effectiveness of our method and the state of art results. Videos, summarizing results, can be found at goo.gl/HtvJKR .

研究の動機と目的

連続制御のデータ効率の高いオフポリシー actor-critic フレームワークを開発する。
Q-function 推定と局所的な非パラメトリック政策改善ステップを組み合わせる。
安定した学習を保証するための KL ベースの正則化を伴うパラメトリック政策適合ステップを導入する。
Gaussian 方策の平均と共分散のデカップル更新を可能にし、早期収束を防ぐ。
単一のハイパーパラメータセットを用いて多様なベンチマークで堅牢性を示す。

提案手法

TD 学習とターゲットネットワークを用いてパラメトリック Q-function を学習し、Policy を評価する。
Q値を用いて再加重サンプルから局所的な非パラメトリック行動分布を構築して政策を改善する。
KL 正則化付きの加重最大尤度推定を通じてパラメトリック政策へ戻す（softmax ベースの重み）。
温度パラメータを凸対にならべた解法で変換された重みを指数関数的またはランクベースの方式で取り扱う。
平均と共分散のデカップル更新を行う改善された Gaussian Policy を適合させ、早期収束を防ぐ。
政策更新を制御するための平均と共分散に対する KL 制約による正則化; 座標上昇法による最適化。

実験結果

リサーチクエスチョン

RQ1KL 正則化付き政策改善はオフポリシー actor-critic 設定における安定性と性能にどのような影響を与えるか？
RQ2Gaussian 方策の平均/共分散のデカップル更新は学習の安定性を改善し、早期収束を防げるか？
RQ3このフレームワークは単一のハイパーパラメータセットで多様な連続制御タスク（Control Suite、Parkour、OpenAI Gym）でどのように性能を示すか？
RQ4複数の Q-function 推定戦略（例：TD0 対 Retrace）が複雑なタスクで最終性能に与える影響は？
RQ5この手法は高次元タスクで DDPG、SVG、SAC などの既知ベースラインと比較してどうか？

主な発見

単一のハイパーパラメータセットを用いて、31 の連続制御タスクで複数のベンチマークで強力な性能を達成。
Gaussian 方策の平均/共分散のデカップル更新は早期収束を回避し、安定性と性能を向上。
平均と共分散の KL 制約はタスク横断で安定した学習に重要で、制約がないと学習が不安定になり得る。
Parkour の難易度の高いタスクでは Retrace ベースの policy evaluation が TD0 より学習を速めた。
OpenAI Gym タスクでは、同等のサンプル効率で SAC より漸近的な性能が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。