QUICK REVIEW
[论文解读] Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation
Shangtong Zhang, Bo Liu|arXiv (Cornell University)|Nov 11, 2019
Adaptive Dynamic Programming Control被引用 23
一句话总结
本文提出 COF-PAC,这是首个在函数逼近下具有可证明收敛性的两时间尺度离策略演员-评论家算法。它引入了通过梯度强调学习(GEM)训练的强调评论家,通过比以往方法更稳健地近似重要性权重,从而稳定离策略学习,在线性函数逼近和非线性策略参数化下确保几乎必然收敛。
ABSTRACT
We present the first provably convergent two-timescale off-policy actor-critic algorithm (COF-PAC) with function approximation. Key to COF-PAC is the introduction of a new critic, the emphasis critic, which is trained via Gradient Emphasis Learning (GEM), a novel combination of the key ideas of Gradient Temporal Difference Learning and Emphatic Temporal Difference Learning. With the help of the emphasis critic and the canonical value function critic, we show convergence for COF-PAC, where the critics are linear and the actor can be nonlinear.
研究动机与目标
- 通过在函数逼近下实现可证明收敛,弥合离策略演员-评论家算法的理论空白。
- 解决现有离策略演员-评论家方法(如 Off-PAC)在使用函数逼近时存在的不稳定性和缺乏收敛保证问题。
- 开发一个评论家组件,准确追踪离策略设置下的重要性采样比率(强调),从而提升学习稳定性。
- 在两时间尺度学习与函数逼近下,实现对非线性策略参数化的收敛性分析。
- 基于基于梯度时序差分原理的新型评论家训练方法,建立两时间尺度演员-评论家框架的理论收敛性。
提出的方法
- 提出强调评论家,一种新型评论家组件,利用强调(即后续追踪的极限)来估计离策略学习中状态的重要性。
- 提出梯度强调学习(GEM),一种结合 GTD 与强调 TD 思想的随机逼近算法,通过降低方差和改善收敛性来估计强调。
- 采用两时间尺度更新规则:评论家(强调型与基于价值)以较快时间尺度更新,而演员以较慢时间尺度更新。
- 对评论家采用线性函数逼近,并允许演员使用非线性策略参数化,从而支持实际的深度强化学习应用。
- 通过证明在目标策略缓慢变化条件下 GEM 的几乎必然收敛性,建立收敛性,其理论基础源于 GTD 式收敛理论。
- 利用 GTD 式算法在策略缓慢变化下的追踪能力,确保评论家收敛至正确不动点,从而支持演员的收敛。
实验结果
研究问题
- RQ1在一般非线性策略参数化下,是否可以实现具有函数逼近的两时间尺度离策略演员-评论家算法的可证明收敛?
- RQ2是否可以比通过后续追踪更稳定地估计离策略学习中的强调(重要性权重),从而实现收敛?
- RQ3梯度强调学习(GEM)是否能提供一种稳定且收敛的方法来估计离策略强化学习中的强调?
- RQ4在使用函数逼近时,能否在策略缓慢变化下保证评论家的收敛?
- RQ5是否可能在不假设评论家在每一步都精确收敛的前提下,实现具有函数逼近的离策略演员-评论家的收敛?
主要发现
- COF-PAC 是首个在使用线性评论家和非线性演员时,具有函数逼近的两时间尺度离策略演员-评论家算法,并可证明收敛。
- 梯度强调学习(GEM)在使用线性函数逼近和缓慢变化的目标策略下,确保了强调评论家的几乎必然收敛。
- 通过 GEM 训练的强调评论家,相比后续追踪,能提供更稳定、更低方差的重要性权重估计,解决了先前方法中的关键不稳定性问题。
- COF-PAC 的收敛水平与同策略演员-评论家(Konda, 2002)相当,尽管是离策略学习,但仍实现了相同的理论保证。
- 理论框架表明,包括 GEM 在内的 GTD 式算法可在策略缓慢变化下追踪正确不动点,从而支持两时间尺度收敛。
- 分析证实,当使用强调评论家和 GEM 时,函数逼近不会破坏收敛性,从而克服了离策略强化学习中长期存在的理论障碍。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。