QUICK REVIEW

[論文レビュー] Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

Shixiang Gu, Timothy Lillicrap|arXiv (Cornell University)|Nov 7, 2016

Reinforcement Learning in Robotics参考文献 32被引用数 100

ひとこと要約

Q-Propは、オンポリシーMonte Carloポリシー勾配と制御変数としてのオフポリシークリティックを組み合わせることで、連続制御タスクにおけるTRPOとDDPGよりサンプル効率と安定性を向上させる。

ABSTRACT

Model-free deep reinforcement learning (RL) methods have been successful in a wide variety of simulated domains. However, a major obstacle facing deep RL in the real world is their high sample complexity. Batch policy gradient methods offer stable learning, but at the cost of high variance, which often requires large batches. TD-style methods, such as off-policy actor-critic and Q-learning, are more sample-efficient but biased, and often require costly hyperparameter sweeps to stabilize. In this work, we aim to develop methods that combine the stability of policy gradients with the efficiency of off-policy RL. We present Q-Prop, a policy gradient method that uses a Taylor expansion of the off-policy critic as a control variate. Q-Prop is both sample efficient and stable, and effectively combines the benefits of on-policy and off-policy methods. We analyze the connection between Q-Prop and existing model-free algorithms, and use control variate theory to derive two variants of Q-Prop with conservative and aggressive adaptation. We show that conservative Q-Prop provides substantial gains in sample efficiency over trust region policy optimization (TRPO) with generalized advantage estimation (GAE), and improves stability over deep deterministic policy gradient (DDPG), the state-of-the-art on-policy and off-policy methods, on OpenAI Gym's MuJoCo continuous control environments.

研究の動機と目的

深層強化学習におけるサンプル複雑さの低減と安定性の向上を動機づける。
バイアスを導入せずにオフポリシーのクリティックを活用するポリシー勾配法を開発する。
オンポリシーMonte Carlo勾配とオフポリシークリティック更新を橋渡ししてデータ効率を向上させる。

提案手法

オフポリシークリティックの一階テイラー展開を制御変量として用いたポリシー勾配推定量としてQ-Propを導出する。
クリティックとしてQwを用い、μθ(st)を期待アクションとして分析的項をクリティックを通して、残差モンテカルロ項とともに勾配を形成する。
利点を用いた勾配を表現し、オフポリシーデータがクリティックを訓練できる一方でアクターがオンポリシーのままであることを示す。
分散を低減するための適応的制御変量重みη(st)を導入し、完全適応、保守的、攻撃的なバリアントを含む。
Q-PropがTRPO、GAE、DDPG、Retrace(λ)と組み合わせ可能で、既存のポリシー勾配フレームワークの上に実装できることを示す。

実験結果

リサーチクエスチョン

RQ1オフポリシークリティックを制御変量として用い、バイアスを導入せずにポリシー勾配推定の分散を低減できるか？
RQ2連続制御タスク全般において、サンプル効率と安定性の観点でQ-PropはTRPO-GAEおよびDDPGと比較してどうであるか？
RQ3適応的制御変量重み付けが分散と学習性能に与える影響は何か？
RQ4Q-Propは既存のオンポリシーおよびオフポリシーの強化学習技術と統合して実世界の性能を改善できるか？

主な発見

ドメイン	閾値	MaxReturn(TR-c-Q-Prop)	エピソード(TR-c-Q-Prop)	MaxReturn(TRPO)	エピソード(TRPO)	MaxReturn(DDPG)	エピソード(DDPG)
Ant	3500	3534	4975	4239	13825	957	N/A
HalfCheetah	4700	4811	20785	4734	26370	7490	600
Hopper	2000	2957	5945	2486	5715	2604	965
Humanoid	2500	>3492	14750	918	>30000	552	N/A
Reacher	-7	-6.0	2060	-6.7	2840	-6.6	1800
Swimmer	90	103	2045	110	3025	150	500
Walker	3000	4030	3685	3567	18875	3626	2125

Q-Propは連続制御タスク全体でTRPO-GAEに対してサンプル効率の大幅な向上を提供する。
保守的なQ-Propは安定性を向上させ、複数の領域でTRPOやDDPGなどの他のベースラインをしばしば上回る。
適応的Q-Propのバリアント（完全適応、保守的、攻撃的）は勾配分散を低減し、学習性能を維持または向上させることができる。
Humanoid-v1のような難しい領域では、Q-PropはTRPOに対してサンプル効率を大幅に向上させ、DDPGは時に良い解を見つけられないことがある。
Q-Propは小さなバッチサイズでも効果的に学習でき、その安定性は実世界のタスクに有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。