[论文解读] Reanalysis of Variance Reduced Temporal Difference Learning
本文重新分析了方差缩减时序差分(VRTD)学习,纠正了先前分析中的技术错误,并建立了严格的非渐近收敛保证。VRTD 在常数步长下实现对时序差分固定点邻域的线性收敛,通过增大用于方差缩减的批量大小,显著降低了方差和偏差误差,从而在条件数较小时,相较于原始 TD 方法,在独立同分布(i.i.d.)和马尔可夫采样下均展现出更优的计算复杂度。
Temporal difference (TD) learning is a popular algorithm for policy evaluation in reinforcement learning, but the vanilla TD can substantially suffer from the inherent optimization variance. A variance reduced TD (VRTD) algorithm was proposed by Korda and La (2015), which applies the variance reduction technique directly to the online TD learning with Markovian samples. In this work, we first point out the technical errors in the analysis of VRTD in Korda and La (2015), and then provide a mathematically solid analysis of the non-asymptotic convergence of VRTD and its variance reduction performance. We show that VRTD is guaranteed to converge to a neighborhood of the fixed-point solution of TD at a linear convergence rate. Furthermore, the variance error (for both i.i.d.\ and Markovian sampling) and the bias error (for Markovian sampling) of VRTD are significantly reduced by the batch size of variance reduction in comparison to those of vanilla TD. As a result, the overall computational complexity of VRTD to attain a given accurate solution outperforms that of TD under Markov sampling and outperforms that of TD under i.i.d.\ sampling for a sufficiently small conditional number.
研究动机与目标
- 识别并纠正 Korda 和 La(2015)提出的方差缩减时序差分(VRTD)学习收敛性分析中的技术错误。
- 在独立同分布(i.i.d.)和马尔可夫采样下,提供 VRTD 的数学严谨的非渐近收敛分析。
- 量化方差缩减批量大小对 VRTD 中方差和偏差误差的影响。
- 比较 VRTD 与原始 TD 在达到给定精度水平下的整体计算复杂度。
提出的方法
- 采用一种新颖的误差分解方法重构 VRTD 的收敛性证明,将残余方差项与偏差项分离。
- 应用双层循环结构:外层循环计算批量伪梯度,内层循环使用方差缩减的梯度估计更新参数。
- 采用李雅普诺夫函数方法,界定迭代值与固定点解之间期望平方误差的上界。
- 通过分析马尔可夫样本的混合特性及批量大小的影响,推导出残余方差和偏差项的上界。
- 在常数步长下,建立 VRTD 对时序差分固定点邻域的线性收敛速率。
- 通过推导 i.i.d. 和马尔可夫采样下 VRTD 与原始 TD 的样本复杂度边界,比较其计算复杂度。
实验结果
研究问题
- RQ1在独立同分布采样下,VRTD 的方差缩减是否能降低由随机伪梯度方差引起的常数误差项,相较于原始 TD?
- RQ2VRTD 是否也能减少由马尔可夫采样引入的额外偏差误差?其依赖关系如何随批量大小变化?
- RQ3VRTD 中方差和偏差误差对用于方差缩减的批量大小有何依赖关系?
- RQ4在独立同分布和马尔可夫采样下,VRTD 达到给定精度的整体计算复杂度如何与原始 TD 比较?
- RQ5在何种条件下,VRTD 在总伪梯度计算次数上优于原始 TD?
主要发现
- 在常数步长下,VRTD 以几何速率 C1 < 1 收敛至时序差分固定点解的邻域,误差呈指数衰减。
- 在独立同分布和马尔可夫采样下,残余方差误差均随批量大小 M 增大而减少为 1/M。
- 在马尔可夫采样下,VRTD 的偏差误差相比原始 TD 也减少了 1/M。
- 在独立同分布采样下,VRTD 达到 ε-精度的整体计算复杂度为 O((1/ελ²A)log(1/ε));在马尔可夫采样下为 O((1/ελ²A)log²(1/ε))。
- 当条件数足够小时,VRTD 在马尔可夫采样下优于原始 TD,且在独立同分布采样下也优于原始 TD,体现在总伪梯度计算次数上。
- 本分析纠正了 Korda 和 La(2015)原始 VRTD 收敛性证明中的技术缺陷,为该方法提供了坚实的理论基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。