Skip to main content
QUICK REVIEW

[论文解读] A Stochastic Composite Gradient Method with Incremental Variance Reduction

Junyu Zhang, Lin Xiao|arXiv (Cornell University)|Jun 24, 2019
Stochastic Gradient Optimization Techniques被引用 25
一句话总结

该论文提出CIVR,一种用于最小化涉及向量映射期望的复合函数的随机复合梯度方法,结合了增量方差缩减技术。通过同时对内层映射及其雅可比矩阵使用方差缩减估计器,CIVR在复合梯度估计固有的偏差背景下,实现了与非凸有限和问题及期望值问题的最先进方法相当的最优样本复杂度。

ABSTRACT

We consider the problem of minimizing the composition of a smooth (nonconvex) function and a smooth vector mapping, where the inner mapping is in the form of an expectation over some random variable or a finite sum. We propose a stochastic composite gradient method that employs an incremental variance-reduced estimator for both the inner vector mapping and its Jacobian. We show that this method achieves the same orders of complexity as the best known first-order methods for minimizing expected-value and finite-sum nonconvex functions, despite the additional outer composition which renders the composite gradient estimator biased. This finding enables a much broader range of applications in machine learning to benefit from the low complexity of incremental variance-reduction methods.

研究动机与目标

  • 解决目标函数涉及光滑函数与期望值向量映射复合的非凸复合优化问题的挑战。
  • 克服由于复合结构导致的梯度估计偏差,该偏差使标准方差缩减技术的应用复杂化。
  • 开发一种方法,实现此类问题的最优样本复杂度,与更简单期望值问题和有限和问题的最佳已知速率相匹配。
  • 通过提供低复杂度、高效的算法,拓展在机器学习中的应用,包括强化学习和风险厌恶优化。

提出的方法

  • 提出一种新颖的随机复合梯度方法CIVR,对向量映射 $ g_{\rho}(x) $ 及其雅可比矩阵 $ g'_{\rho}(x) $ 均采用增量方差缩减技术。
  • 采用基于子采样期望的有偏梯度估计器,但通过一种新颖的增量方差缩减机制减轻偏差。
  • 引入两级采样策略:初始化时采用全批量采样,后续采用批量大小 $ s=1 $ 的子采样,以实现高效计算。
  • 采用邻近梯度框架并结合自适应步长,确保在非凸条件下的收敛性。
  • 通过分析邻近梯度映射的期望范数 $ \mathbb{E}[\|\mathcal{G}(\bar{x})\|^{2}] \leq \epsilon $,推导理论收敛速率,其中 $ \epsilon $ 为近似解的精度。
  • 将该方法应用于形式为 $ \min_x f(\mathbb{E}_\xi[g_\xi(x)]) + r(x) $ 的问题,包括策略评估与风险厌恶优化。

实验结果

研究问题

  • RQ1能否为由于复合结构导致梯度估计有偏的非凸复合优化问题,设计一种方差缩减的随机梯度方法?
  • RQ2该方法是否能达到与标准期望值问题和有限和问题中最佳已知一阶方法相同的样本复杂度?
  • RQ3该方法能否高效应用于实际问题,如强化学习中的策略评估和低维中间映射的风险厌恶优化?
  • RQ4该方法在达到 $ \epsilon $-最优解时,其理论收敛速率(以函数和雅可比矩阵评估次数衡量)如何?
  • RQ5在收敛速度和稳定性方面,该方法与现有算法(如SCGD、ASCGD和VRSC-PG)相比表现如何?

主要发现

  • CIVR实现了 $ \mathcal{O}(\kappa^2 \sigma_0^2 \epsilon^{-1} + \kappa) \ln \epsilon^{-1} $ 的样本复杂度,与非凸有限和问题及期望值问题的最佳已知速率一致。
  • 在确定性情形($ \sigma_0 = 0 $)下,复杂度降低为 $ \mathcal{O}(\kappa \ln \epsilon^{-1}) $,这是光滑非凸问题的最优复杂度。
  • 在马尔可夫决策过程中的策略评估数值实验表明,CIVR-b1(批量大小为1)在收敛速度和稳定性方面优于SCGD、ASCGD、ASC-PG、VRSC-PG和C-SAGA。
  • 即使在小批量大小下,该方法仍能保持稳定且平滑的收敛轨迹,展现出在实际场景中的鲁棒性。
  • 对于中间映射维度较低的问题(如风险厌恶优化中的 $ p=2 $),计算开销保持极低,支持高效应用。
  • 理论分析证实,该方法能有效处理复合梯度估计中的偏差,从而在非凸条件下提供可靠的收敛性保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。