QUICK REVIEW

[论文解读] Non-asymptotic Analysis of Biased Stochastic Approximation Scheme

Belhal Karimi, Błażej Miasojedow|arXiv (Cornell University)|Feb 2, 2019

Stochastic Gradient Optimization Techniques参考文献 36被引用 27

一句话总结

本文针对非凸、光滑目标函数的最小化问题，提出了一类广义有偏随机逼近（SA）方案的非渐近收敛性分析，其中漂移项依赖于状态相关的马尔可夫链，且均值场不一定是梯度。主要贡献是在较弱条件下提供了收敛至驻点的收敛速率保证，扩展了其在在线EM和强化学习策略梯度方法中的适用性。

ABSTRACT

Stochastic approximation (SA) is a key method used in statistical learning. Recently, its non-asymptotic convergence analysis has been considered in many papers. However, most of the prior analyses are made under restrictive assumptions such as unbiased gradient estimates and convex objective function, which significantly limit their applications to sophisticated tasks such as online and reinforcement learning. These restrictions are all essentially relaxed in this work. In particular, we analyze a general SA scheme to minimize a non-convex, smooth objective function. We consider update procedure whose drift term depends on a state-dependent Markov chain and the mean field is not necessarily of gradient type, covering approximate second-order method and allowing asymptotic bias for the one-step updates. We illustrate these settings with the online EM algorithm and the policy-gradient method for average reward maximization in reinforcement learning.

研究动机与目标

解决在非凸设置下，有偏随机逼近方案缺乏非渐近收敛性分析的问题。
放宽对无偏梯度和凸性的严格假设，以提升其在在线学习和强化学习中的适用性。
分析一种广义SA方案，其中均值场不一定是梯度，且可能存在渐近偏差。
在最小稳定性假设下，为在线EM和策略梯度方法等算法提供收敛速率结果。
为具有复杂、状态相关动态特性的实际在线学习算法建立理论基础。

提出的方法

构建一种广义随机逼近方案，其漂移项依赖于状态相关的马尔可夫链。
将均值场定义为马尔可夫链平稳分布下漂移的期望，从而允许存在渐近偏差。
使用光滑李雅普诺夫函数 $ V $ 来刻画目标函数，并将其漂移与梯度关联。
通过非渐近分析期望的 $ V $ 减少量来建立收敛性，利用鞅和马尔可夫链的性质。
基于步长规则和噪声的矩条件，推导出期望次优间隙的上界。
将该框架应用于两个关键应用：在线EM和平均奖励最大化的策略梯度方法。

实验结果

研究问题

RQ1能否为具有状态相关马尔可夫链的有偏随机逼近方案建立非渐近收敛速率？
RQ2在非凸优化中，单步更新的渐近偏差如何影响收敛至驻点的性能？
RQ3在何种条件下可确保迭代序列保持稳定并收敛至驻点的邻域？
RQ4所提出的框架能否在理论保证下应用于在线EM和策略梯度方法？
RQ5在一般噪声和偏差结构下，何种步长规则可实现最优收敛速率？

主要发现

本文为具有状态相关马尔可夫链的广义有偏随机逼近方案，建立了收敛至驻点的非渐近收敛速率。
在步长和矩条件的温和假设下，收敛速率为 $ O(1/ au) $，其中 $ \tau $ 为迭代次数。
该分析适用于非凸、光滑的目标函数，无需依赖凸性或无偏梯度。
该框架覆盖了在线EM和策略梯度方法，且推论3.1首次在一般条件下为在线EM提供了已知的非渐近收敛速率。
采用折扣奖励估计器的策略梯度方法，其收敛至驻点的速率依赖于折扣因子 $ \lambda $，偏差为 $ O(1 - \lambda) $。
结果无需假设迭代序列的全局有界性，仅依赖于局部稳定性和李雅普诺夫函数分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。