[論文レビュー] Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic
Q-Propは、オンポリシーMonte Carloポリシー勾配と制御変数としてのオフポリシークリティックを組み合わせることで、連続制御タスクにおけるTRPOとDDPGよりサンプル効率と安定性を向上させる。
Model-free deep reinforcement learning (RL) methods have been successful in a wide variety of simulated domains. However, a major obstacle facing deep RL in the real world is their high sample complexity. Batch policy gradient methods offer stable learning, but at the cost of high variance, which often requires large batches. TD-style methods, such as off-policy actor-critic and Q-learning, are more sample-efficient but biased, and often require costly hyperparameter sweeps to stabilize. In this work, we aim to develop methods that combine the stability of policy gradients with the efficiency of off-policy RL. We present Q-Prop, a policy gradient method that uses a Taylor expansion of the off-policy critic as a control variate. Q-Prop is both sample efficient and stable, and effectively combines the benefits of on-policy and off-policy methods. We analyze the connection between Q-Prop and existing model-free algorithms, and use control variate theory to derive two variants of Q-Prop with conservative and aggressive adaptation. We show that conservative Q-Prop provides substantial gains in sample efficiency over trust region policy optimization (TRPO) with generalized advantage estimation (GAE), and improves stability over deep deterministic policy gradient (DDPG), the state-of-the-art on-policy and off-policy methods, on OpenAI Gym's MuJoCo continuous control environments.
研究の動機と目的
- 深層強化学習におけるサンプル複雑さの低減と安定性の向上を動機づける。
- バイアスを導入せずにオフポリシーのクリティックを活用するポリシー勾配法を開発する。
- オンポリシーMonte Carlo勾配とオフポリシークリティック更新を橋渡ししてデータ効率を向上させる。
提案手法
- オフポリシークリティックの一階テイラー展開を制御変量として用いたポリシー勾配推定量としてQ-Propを導出する。
- クリティックとしてQwを用い、μθ(st)を期待アクションとして分析的項をクリティックを通して、残差モンテカルロ項とともに勾配を形成する。
- 利点を用いた勾配を表現し、オフポリシーデータがクリティックを訓練できる一方でアクターがオンポリシーのままであることを示す。
- 分散を低減するための適応的制御変量重みη(st)を導入し、完全適応、保守的、攻撃的なバリアントを含む。
- Q-PropがTRPO、GAE、DDPG、Retrace(λ)と組み合わせ可能で、既存のポリシー勾配フレームワークの上に実装できることを示す。
実験結果
リサーチクエスチョン
- RQ1オフポリシークリティックを制御変量として用い、バイアスを導入せずにポリシー勾配推定の分散を低減できるか?
- RQ2連続制御タスク全般において、サンプル効率と安定性の観点でQ-PropはTRPO-GAEおよびDDPGと比較してどうであるか?
- RQ3適応的制御変量重み付けが分散と学習性能に与える影響は何か?
- RQ4Q-Propは既存のオンポリシーおよびオフポリシーの強化学習技術と統合して実世界の性能を改善できるか?
主な発見
| ドメイン | 閾値 | MaxReturn(TR-c-Q-Prop) | エピソード(TR-c-Q-Prop) | MaxReturn(TRPO) | エピソード(TRPO) | MaxReturn(DDPG) | エピソード(DDPG) |
|---|---|---|---|---|---|---|---|
| Ant | 3500 | 3534 | 4975 | 4239 | 13825 | 957 | N/A |
| HalfCheetah | 4700 | 4811 | 20785 | 4734 | 26370 | 7490 | 600 |
| Hopper | 2000 | 2957 | 5945 | 2486 | 5715 | 2604 | 965 |
| Humanoid | 2500 | >3492 | 14750 | 918 | >30000 | 552 | N/A |
| Reacher | -7 | -6.0 | 2060 | -6.7 | 2840 | -6.6 | 1800 |
| Swimmer | 90 | 103 | 2045 | 110 | 3025 | 150 | 500 |
| Walker | 3000 | 4030 | 3685 | 3567 | 18875 | 3626 | 2125 |
- Q-Propは連続制御タスク全体でTRPO-GAEに対してサンプル効率の大幅な向上を提供する。
- 保守的なQ-Propは安定性を向上させ、複数の領域でTRPOやDDPGなどの他のベースラインをしばしば上回る。
- 適応的Q-Propのバリアント(完全適応、保守的、攻撃的)は勾配分散を低減し、学習性能を維持または向上させることができる。
- Humanoid-v1のような難しい領域では、Q-PropはTRPOに対してサンプル効率を大幅に向上させ、DDPGは時に良い解を見つけられないことがある。
- Q-Propは小さなバッチサイズでも効果的に学習でき、その安定性は実世界のタスクに有利である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。