[论文解读] Accelerating Stochastic Composition Optimization
本文提出了一种加速随机复合近端梯度(ASC-PG)方法,这是一种新颖的一阶算法,用于具有非光滑正则化的随机复合优化。通过利用双时间尺度更新和近端梯度步骤,该方法在收敛速度上优于以往方法,包括在特殊情况下实现最优的 $O(1/k)$ 收敛率。
Consider the stochastic composition optimization problem where the objective is a composition of two expected-value functions. We propose a new stochastic first-order method, namely the accelerated stochastic compositional proximal gradient (ASC-PG) method, which updates based on queries to the sampling oracle using two different timescales. The ASC-PG is the first proximal gradient method for the stochastic composition problem that can deal with nonsmooth regularization penalty. We show that the ASC-PG exhibits faster convergence than the best known algorithms, and that it achieves the optimal sample-error complexity in several important special cases. We further demonstrate the application of ASC-PG to reinforcement learning and conduct numerical experiments.
研究动机与目标
- 开发一种针对涉及两个期望值函数复合的随机复合问题的高效一阶算法。
- 将近端梯度方法扩展至随机复合问题,特别是处理如 ℓ₁-范数这样的非光滑正则化项。
- 实现比现有随机复合梯度方法更快的收敛速率,特别是在样本-误差复杂度方面。
- 在一般光滑性和凸性假设下建立理论收敛速率,包括在特殊情况下达到最优复杂度。
- 通过强化学习和风险规避优化中的应用,展示其实际有效性。
提出的方法
- ASC-PG 方法采用双时间尺度更新策略,其中一个时间尺度用于跟踪内函数估计,另一个时间尺度用于更新主变量。
- 通过引入近端梯度步骤来处理如 ℓ₁-范数这样的非光滑正则化惩罚项,从而支持稀疏优化的应用。
- 算法对内函数 $g_w({f x})$ 和外函数 $f_v(g_w({f x}))$ 使用无偏随机梯度估计,并为每个时间尺度分别设置步长。
- 该方法通过将 $g({f x})$ 的估计与 ${f x}$ 的更新解耦,借鉴双时间尺度随机逼近的思想,以保持稳定性和收敛性。
- 理论分析在较弱假设下建立了收敛速率,包括 $f_v$ 和 $g_w$ 的光滑性以及 $R({f x})$ 的凸性。
- 该方法通过贝尔曼方程公式应用于强化学习,将价值函数估计转化为随机复合问题。
实验结果
研究问题
- RQ1能否为具有非光滑正则化(如 ℓ₁-范数)的随机复合问题设计一种近端梯度方法?
- RQ2通过双时间尺度更新,随机一阶方法在一般随机复合问题中可实现何种收敛速率?
- RQ3在特殊情况下(如内函数为线性时),所提出的 ASC-PG 方法是否实现了最优的样本-误差复杂度?
- RQ4在强化学习设置中,ASC-PG 方法与现有算法(如 SCGD 和 GTD2-MP)相比,其性能如何?
- RQ5ASC-PG 方法能否有效应用于涉及方差最小化的风险规避学习问题?
主要发现
- ASC-PG 方法在期望次优间隙 $ ext{E}[H({f x}_k) - H({f x}^*)]$ 上实现了 $O(1/k)$ 的收敛速率,优于以往方法的最佳已知速率 $O(1/k^{4/9})$。
- 在内函数 $g_w({f x})$ 为线性函数的特殊情况下,ASC-PG 方法实现了最优的 $O(1/k)$ 收敛速率,与理论下界一致。
- 数值实验表明,ASC-PG 在 Baird 例子(S=6)和更大的 MDP(S=100)中,相较于 SCGD 和 GTD2-MP,收敛速度显著更快,且 $ ext{E}[ orm{{f w}_k - {f w}^*}]$ 的衰减更快。
- 在稀疏恢复场景中,当 $oldsymbol{ heta}^*$ 仅有 4 个非零分量时,使用 $oldsymbol{ heta}$-正则化的 ASC-PG 成功恢复了稀疏解,表现为 $ orm{{f w}_k - oldsymbol{ heta}^*}$ 的快速衰减。
- 迭代次数与误差的双对数图显示了 $O(1/k)$ 的速率,斜率接近 -1,支持理论分析。
- ASC-PG 方法是首个处理非光滑正则化的随机复合问题的近端梯度方法,显著扩展了可应用优化问题的范围。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。