[论文解读] Finite-Sample Analysis for SARSA with Linear Function Approximation
该论文提供了在非独立同分布数据与时间变化行为策略下,线性函数近似的在策略SARSA的首次非渐近有限样本分析,以及一个具有有限样本保证的拟合SARSA变体。
SARSA is an on-policy algorithm to learn a Markov decision process policy in reinforcement learning. We investigate the SARSA algorithm with linear function approximation under the non-i.i.d.\ data, where a single sample trajectory is available. With a Lipschitz continuous policy improvement operator that is smooth enough, SARSA has been shown to converge asymptotically \cite{perkins2003convergent,melo2008analysis}. However, its non-asymptotic analysis is challenging and remains unsolved due to the non-i.i.d. samples and the fact that the behavior policy changes dynamically with time. In this paper, we develop a novel technique to explicitly characterize the stochastic bias of a type of stochastic approximation procedures with time-varying Markov transition kernels. Our approach enables non-asymptotic convergence analyses of this type of stochastic approximation algorithms, which may be of independent interest. Using our bias characterization technique and a gradient descent type of analysis, we provide the finite-sample analysis on the mean square error of the SARSA algorithm. We then further study a fitted SARSA algorithm, which includes the original SARSA algorithm and its variant in \cite{perkins2003convergent} as special cases. This fitted SARSA algorithm provides a more general framework for extit{iterative} on-policy fitted policy iteration, which is more memory and computationally efficient. For this fitted SARSA algorithm, we also provide its finite-sample analysis.
研究动机与目标
- 激发对在来自时间变化策略的非独立同分布样本条件下,使用线性函数近似的SARSA收敛速度的理解。
- 提出一种针对带有时变马尔可夫核的随机近似的新偏差表征。
- 推导SARSA及广义拟合SARSA算法的有限样本均方误差界。
- 证明拟合SARSA方案在保持收敛性属性的同时,能在内存和计算效率上更具优势。
提出的方法
- 引入一种针对带时变马尔可夫转移核的随机近似的新偏差表征技术。
- 将带线性函数近似的SARSA建模为具有Lipschitz连续性的策略改进算子。
- 利用梯度下降风格框架和偏差界,给出有限样本分析。
- 扩展到一个通用的在策略拟合SARSA算法,在策略改进之间加入基于TD(0)的拟合步骤。
- 推导对于递减和恒定步长的明确有限样本界。
实验结果
研究问题
- RQ1在非i.i.d.数据和时间变化的行为策略下,是否可以获得带线性函数近似的在策略SARSA的非渐近收敛性保证?
- RQ2时变马尔可夫核带来的随机偏差如何影响收敛以及速率?
- RQ3可以为SARSA及广义拟合SARSA算法建立哪些有限样本误差界?
- RQ4拟合SARSA框架是否在样本复杂度上具有相同或更优的表现,并可能带来计算上的优势?
- RQ5对策略改进(Lipschitz)有哪些条件可以确保收敛并使偏差可控?
主要发现
- 带线性函数近似的SARSA在递减和恒定步长下获得有限样本均方误差界,展示收敛到极限点theta*并给出量化速率。
- 在递减步长下,当T很大时,误差的尺度为O(log^3 T / T),这意味着达到误差delta所需的样本复杂度为O(1/delta * log^3(1/delta))。
- 在恒定步长下,只要步长足够小且T足够大,算法会收敛到theta*的一个很小的邻域。
- 对一个通用的在策略拟合SARSA算法进行了分析,显示与SARSA相同的总体O(1/delta log^3(1/delta))样本复杂度,在策略改进之间使用TD迭代时可能带来计算上的收益。
- 拟合步骤可以在未完全收敛时终止,而不会损害整体收敛性或样本复杂度。
- 通过辅助的统一遍历链发展了一种时变马尔可夫过程的偏差表征,以实现非渐近分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。