Skip to main content
QUICK REVIEW

[论文解读] Stochastic Trust Region Methods with Trust Region Radius Depending on Probabilistic Models

Xiaoyu Wang, Yifei Yuan|arXiv (Cornell University)|Apr 6, 2019
Stochastic Gradient Optimization Techniques参考文献 47被引用 6
一句话总结

本文提出STRME,一种随机信赖域方法,其信赖域半径基于概率模型的梯度大小自适应设定,确保在非凸、凸及强凸设置下的全局收敛性。该方法实现了与最先进算法相当的复杂度界,并在数值实验中相较于现有的随机信赖域与梯度方法展现出更优的性能。

ABSTRACT

We present a stochastic trust-region model-based framework in which its radius is related to the probabilistic models. Especially, we propose a specific algorithm, termed STRME, in which the trust-region radius depends linearly on the latest model gradient. The complexity of STRME method in non-convex, convex and strongly convex settings has all been analyzed, which matches the existing algorithms based on probabilistic properties. In addition, several numerical experiments are carried out to reveal the benefits of the proposed methods compared to the existing stochastic trust-region methods and other relevant stochastic gradient methods.

研究动机与目标

  • 解决由于梯度估计方差过高导致的随机一阶方法收敛缓慢与性能不佳的问题。
  • 提出一种动态利用概率模型梯度调整信赖域半径的信任域框架,以提升鲁棒性与收敛性。
  • 在非凸、凸及强凸设置下,为所提方法建立理论复杂度界,使其与现有最先进结果保持一致。
  • 通过在逻辑回归与深度神经网络问题上的数值实验,展示该方法的实际优势。
  • 在概率模型假设下提供全局收敛的理论保证,将信赖域方法扩展至具有更高自适应性的随机优化。

提出的方法

  • 提出STRME(基于概率模型依赖半径的随机信赖域方法),其中信赖域半径δk设定为δk = µk ∥gk∥,gk为随机梯度,µk为缩放参数。
  • 集成dogleg与L-SR1(有限内存对称秩一)更新策略以计算搜索步长,确保充分下降并准确逼近海森矩阵。
  • 通过小批量采样获得函数值与梯度值的概率估计,样本大小自适应控制以降低方差。
  • 基于模型预测下降量Pred的比值ρk = (f(xk) - f(xk + dk)) / Pred,应用信赖域接受准则。
  • 采用自适应线搜索与信赖域半径更新规则:若ρk ≥ η1(接受步长),则增加µk;否则减小µk。
  • 利用条件期望与集中不等式(如切比雪夫不等式)在有界方差假设下推导理论收敛保证。

实验结果

研究问题

  • RQ1基于概率模型梯度的信赖域半径是否能改善随机非凸优化中的收敛性?
  • RQ2此类方法在非凸、凸及强凸设置下的理论复杂度为何?是否与现有最先进复杂度界一致?
  • RQ3基于模型梯度大小的自适应半径机制在实践中与固定或启发式半径策略相比表现如何?
  • RQ4在强凸设置下,该方法是否能利用概率模型估计实现线性收敛?
  • RQ5在真实机器学习问题中,STRME相较于其他随机信赖域与自适应梯度方法的实证性能如何?

主要发现

  • STRME在非凸、凸及强凸设置下均实现全局收敛,其理论复杂度界与最先进随机算法保持一致。
  • 在强凸情况下,达到ε-最优性的期望迭代次数满足E[Tε] ≤ (αβ / (2αβ - 1))(M log(1/ε) + O(1)),其中M取决于问题条件与模型参数。
  • 在逻辑回归与深度神经网络的数值实验中,该方法展现出更快的收敛速度与更强的鲁棒性,优于标准随机信赖域与自适应梯度方法。
  • 信赖域半径δk = µk ∥gk∥通过与当前模型梯度成比例,有效平衡探索与利用,减少不必要的步长,提升收敛稳定性。
  • 理论分析证实,该方法在有界方差与概率模型假设下保持收敛性,且通过条件期望与集中不等式推导出严格界。
  • 利用函数与梯度值的概率估计可实现大规模场景下的高效计算,支持无需完整梯度计算的在线与小批量学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。