Skip to main content
QUICK REVIEW

[論文レビュー] Exponential Convergence of (Stochastic) Gradient Descent for Separable Logistic Regression

Sacchit Kale, Piyushi Manupriya|SPIRE - Sciences Po Institutional REpository|Feb 21, 2026
Stochastic Gradient Optimization Techniques被引用数 0
ひとこと要約

この論文は、単純で適応なしの増加ステップサイズスケジュールを用いた分離可能なロジスティック回帰において、勾配降下法(GD)と確率的勾配降下法(SGD)が指数的収束を達成し得ることを示し、安定性の端付近の領域を回避する。

ABSTRACT

Gradient descent and stochastic gradient descent are central to modern machine learning, yet their behavior under large step sizes remains theoretically unclear. Recent work suggests that acceleration often arises near the edge of stability, where optimization trajectories become unstable and difficult to analyze. Existing results for separable logistic regression achieve faster convergence by explicitly leveraging such unstable regimes through constant or adaptive large step sizes. In this paper, we show that instability is not inherent to acceleration. We prove that gradient descent with a simple, non-adaptive increasing step-size schedule achieves exponential convergence for separable logistic regression under a margin condition, while remaining entirely within a stable optimization regime. The resulting method is anytime and does not require prior knowledge of the optimization horizon or target accuracy. We also establish exponential convergence of stochastic gradient descent using a lightweight adaptive step-size rule that avoids line search and specialized procedures, improving upon existing polynomial-rate guarantees. Together, our results demonstrate that carefully structured step-size growth alone suffices to obtain exponential acceleration for both gradient descent and stochastic gradient descent.

研究の動機と目的

  • 大きなステップサイズを用いたGD/SGDの最適化ダイナミクスを分離可能なロジスティック回帰で動機づけ分析する。
  • 不安定な領域に入ることなく指数的収束が達成可能であることを示す。
  • 理論的保証を伴う非適応的または軽量の適応的ステップサイズスキームを提供する。

提案手法

  • GDに対して安定性を維持しつつ指数的収束を達成する非適応的増加ステップサイズスケジュールを導入する。
  • 観測された確率的損失に依存する軽量な適応ステップサイズルールを用いて、線探索を回避しつつSGDで指数的収束を証明する。
  • 事前に最終許容誤差を知らなくてもよいダブルニングのトリックを用いたブロック適応SGDの変種を分析する。
  • ロジスティック損失の自己有界化された曲率とマージン仮定を活用して収束速度を導出する。
  • 二相の不安定領域を回避する統一的な軌道分析と理論的証明を提供する。
Figure 1 : Comparison of our GD ( 6 ) and constant step-size gradient descent for logistic regression on a synthetic linearly separable dataset. The plot shows the evolution of the empirical logistic loss $\mathcal{L}(\mathbf{w}_{t})$ (log scale) as a function of iterations $t$ .
Figure 1 : Comparison of our GD ( 6 ) and constant step-size gradient descent for logistic regression on a synthetic linearly separable dataset. The plot shows the evolution of the empirical logistic loss $\mathcal{L}(\mathbf{w}_{t})$ (log scale) as a function of iterations $t$ .

実験結果

リサーチクエスチョン

  • RQ1マージン条件の下で、単純で非適応的な増加ステップサイズを用いたGDは分離可能なロジスティック回帰に対して指数的収束を達成し得るか。
  • RQ2線探索や特別な処理を要さず、軽量な適応ステップサイズを用いたSGDは分離可能なロジスティック回帰に対して指数的収束を生み出せるか。
  • RQ3ブロック適応SGD戦略は事前に目標許容誤差を知る必要を排除しつつ高速収束を保てるか。
  • RQ4マージン条件とロジスティック損失の自己有界勾配特性は高速レート達成にどんな役割を果たすか。
  • RQ5提案手法は、安定性と収束保証の点で既存の定数/適応的大ステップ解析と比較してどうか。

主な発見

  • 提案された増加ステップサイズを用いるGDは、分離性の下で単調な損失低下と指数的様相の収束を達成する。
  • 現在の確率的損失に基づく適応ステップサイズを用いたSGDは、線探索なしで指数的収束を達成する。
  • ブロック適応SGDアプローチは随時保証を提供し、事前にターゲット許容誤差を知る必要を排除する。
  • 高速化には不安定性が必須ではなく、安定域内で大きなステップサイズを用いることが可能であることを示す。
  • 解析は決定論的GDを超えて確率的設定にも適用可能で、マージン仮定の下でヒット時間保証を持つことを示す。
Figure 2 : Dynamics of Gradient descent for logistic regression on a synthetic linearly separable dataset. Left: Evolution of the empirical loss $\mathcal{L}(\mathbf{w}_{t})$ and inverse step size $1/\eta_{t}$ in log scale. Right: Plot of $\ln(S_{t})$ versus $t^{1/3}$ , validating order of growth of
Figure 2 : Dynamics of Gradient descent for logistic regression on a synthetic linearly separable dataset. Left: Evolution of the empirical loss $\mathcal{L}(\mathbf{w}_{t})$ and inverse step size $1/\eta_{t}$ in log scale. Right: Plot of $\ln(S_{t})$ versus $t^{1/3}$ , validating order of growth of

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。