QUICK REVIEW

[论文解读] Continuous control with deep reinforcement learning

Timothy Lillicrap, Jonathan J. Hunt|arXiv (Cornell University)|Sep 9, 2015

Reinforcement Learning in Robotics参考文献 26被引用 5,361

一句话总结

本论文提出深度确定性策略梯度（DDPG），一种用于连续控制的离策略演员-评论家算法，使用深度网络、重放缓冲区和目标网络，以实现从低维状态和原始像素输入在多任务中稳定学习。

ABSTRACT

We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies end-to-end: directly from raw pixel inputs.

研究动机与目标

解决连续动作空间中可扩展强化学习的挑战。
开发一个模型无关、离策略的算法，利用深度函数近似器。
通过重放缓冲区和受DQN启发的目标网络来稳定学习。
展示从原始像素输入在复杂控制任务中的端到端学习。

提出的方法

采用带确定性策略梯度（DPG）的演员-评论家框架来处理连续动作。
使用深层神经网络来表示演员 μ(s|θ^μ) 和评论家 Q(s,a|θ^Q)。
引入重放缓冲区以打破样本相关性并实现小批量更新。
为演员和评论家引入软目标网络以稳定学习（θ^Q' 和 θ^μ'）。
对输入和隐藏层应用批量归一化以处理异质状态尺度。
通过Ornstein–Uhlenbeck过程为演员添加探索噪声，以实现时间相关的探索。
使用离策略更新进行训练，目标 y_t = r_t + γ Q'(s_{t+1}, μ'(s_{t+1})|θ^{Q'})，并用梯度规则更新参数（策略梯度和评论家损失）。

实验结果

研究问题

RQ1基于确定性策略梯度的演员-评论家方法能否在高维连续动作空间中使用深度函数近似进行规模扩展？
RQ2重放缓冲区和目标网络是否能够在从低维和像素输入进行的连续控制中实现稳定的离策略学习？
RQ3对于复杂控制任务，使用DDPG从原始像素端到端学习是否可行？
RQ4当动力学与导数已知时，DDPG与基于规划的方法有何比较？
RQ5诸如批量归一化和目标网络等组件对性能和稳定性有何影响？

主要发现

带有重放缓冲区和软目标网络的DDPG在20+个连续控制任务中实现了有竞争力的性能。
在若干任务中，DDPG策略超过了对动力学和导数有完全知识的规划者的性能。
从像素学习在许多任务中是可行的，在相同超参数下达到与低维输入相同或更优的结果。
目标网络（演员和评论家）对稳定性和性能至关重要；移除它们会降低结果。
批量归一化有助于不同状态尺度的任务学习，提升更广泛的泛化。
该算法在许多环境中可以从像素端到端学习，动作重复有助于高维环境的可观测性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。