[论文解读] Exponential Convergence of (Stochastic) Gradient Descent for Separable Logistic Regression
该论文表明,对于可分离的逻辑回归,梯度下降和随机梯度下降可以在简单、非自适应的逐步增大步长方案下实现指数收敛,避免边缘稳定性区间。
Gradient descent and stochastic gradient descent are central to modern machine learning, yet their behavior under large step sizes remains theoretically unclear. Recent work suggests that acceleration often arises near the edge of stability, where optimization trajectories become unstable and difficult to analyze. Existing results for separable logistic regression achieve faster convergence by explicitly leveraging such unstable regimes through constant or adaptive large step sizes. In this paper, we show that instability is not inherent to acceleration. We prove that gradient descent with a simple, non-adaptive increasing step-size schedule achieves exponential convergence for separable logistic regression under a margin condition, while remaining entirely within a stable optimization regime. The resulting method is anytime and does not require prior knowledge of the optimization horizon or target accuracy. We also establish exponential convergence of stochastic gradient descent using a lightweight adaptive step-size rule that avoids line search and specialized procedures, improving upon existing polynomial-rate guarantees. Together, our results demonstrate that carefully structured step-size growth alone suffices to obtain exponential acceleration for both gradient descent and stochastic gradient descent.
研究动机与目标
- 为可分离逻辑回归上的 GD/SGD 在大步长下的优化动力学提供动机与分析。
- 证明在不进入不稳定区间的情况下也能实现指数收敛。
- 提供非自适应或轻量级自适应步长方案,并给出理论保证。
提出的方法
- 为 GD 引入一个非自适应的递增步长方案,在保持稳定性的同时在边际条件下实现指数收敛。
- 证明基于观察到的随机损失的轻量级自适应步长规则下的 SGD 也能实现指数收敛,避免线搜索。
- 分析一种块自适应 SGD 变体,通过翻倍技巧消除事前知道最终容忍度的需要。
- 利用逻辑损失的自边界收敛曲率和边距假设推导收敛速率。
- 给出理论证明和统一的轨迹分析,避免两阶段的不稳定区间。

实验结果
研究问题
- RQ1在边距条件下,使用简单、非自适应的递增步长的 GD 能否实现可分离逻辑回归的指数收敛?
- RQ2基于当前随机损失的轻量级自适应步长的 SGD 是否在不进行线搜索或专门程序的情况下实现可分离逻辑回归的指数收敛?
- RQ3块自适应 SGD 策略是否在保持快速收敛的同时去除了事先知道目标容忍度的要求?
- RQ4边距条件和逻辑损失的自边界梯度性质在实现快速收敛中起到何种作用?
- RQ5与现有的常数/自适应大步长分析相比,所提出方案在稳定性与收敛保证方面有何差异?
主要发现
- 在所提递增步长下,GD 实现了单调损失下降和在可分离条件下的指数样收敛。
- 基于当前随机损失的自适应步长的 SGD 在不进行线搜索的情况下实现了指数收敛。
- 块自适应 SGD 方法提供随时性 guarantees 并消除了事前知道目标容忍度的需要。
- 分析表明并不需要不稳定性就能加速,并且在稳定区间内可以使用较大步长。
- 结果不仅适用于确定性 GD,也扩展到具有收敛时间 guarantees 的随机设置,基于边距假设。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。