QUICK REVIEW

[論文レビュー] Bridging the Gap between Constant Step Size Stochastic Gradient Descent and Markov Chains

Aymeric Dieuleveut, Alain Durmus|arXiv (Cornell University)|Jul 20, 2017

Stochastic Gradient Optimization Techniques参考文献 37被引用数 34

ひとこと要約

この論文は、強凸な目的関数における定数ステップサイズの確率的勾配降下法（SGD）のバイアスの明示的な漸近展開を、マルコフ連鎖理論を活用して確立している。平均化された反復点が真の最適解からO(γ)のバイアスを有し、その周囲に分布することを示し、このバイアスを低減するためリチャードソン＝ロムバーグ補外を提案。実験的に、グローバル最小値への収束が改善された。

ABSTRACT

We consider the minimization of an objective function given access to unbiased estimates of its gradient through stochastic gradient descent (SGD) with constant step-size. While the detailed analysis was only performed for quadratic functions, we provide an explicit asymptotic expansion of the moments of the averaged SGD iterates that outlines the dependence on initial conditions, the effect of noise and the step-size, as well as the lack of convergence in the general (non-quadratic) case. For this analysis, we bring tools from Markov chain theory into the analysis of stochastic gradient. We then show that Richardson-Romberg extrapolation may be used to get closer to the global optimum and we show empirical improvements of the new extrapolation scheme.

研究の動機と目的

定数ステップサイズのSGDの強凸ケースにおける完全な理論的理解を提供すること。
非二次的設定における非収束に起因する平均化SGD反復点のバイアスを定量化すること。
漸近的バイアスを低減する証明可能な手法を開発し、グローバル最適解への収束を改善すること。
SGDとマルコフ連鎖理論の間のギャップを埋め、確率的最適化の分析を向上させること。

提案手法

平均化反復点における定数ステップサイズのSGDを、R^d 上の同次マルコフ連鎖とみなす。不変分布をπ_γとする。
平均化反復点におけるバイアスE[θ̄_γ - θ*] = O(γ) の明示的漸近展開を導出。ステップサイズγの関数として展開。
マルコフ連鎖理論の道具を用いて、π_γとθ*におけるデルタ関数の間の非漸近的弱誤差展開を確立。
初期条件依存のバイアス（初期条件依存性）とノイズ依存の分散（ノイズ依存性）に明示的に分解された、定量的中心極限定理を確立。
複数の異なるステップサイズを用いたSGD実行を組み合わせることで、O(γ)バイアスを低減するリチャードソン＝ロムバーグ補外を提案。
テイラー展開とエルゴディシティの議論を用いて、平均化反復点が定常平均から逸脱する偏差のバOUNDSを導出。

実験結果

リサーチクエスチョン

RQ1平均化定数ステップサイズSGDの真の最適解に対する正確な漸近的バイアスは何か？
RQ2初期条件と勾配ノイズは、定数ステップサイズSGDの収束挙動にどのように影響するか？
RQ3マルコフ連鎖理論を、定数ステップサイズのSGDの長期的挙動を分析するために体系的かつ適切に応用できるか？
RQ4補外技術を用いて、定数ステップサイズSGDの固有バイアスを低減することは可能か？
RQ5提案されたリチャードソン＝ロムバーグスキームは、標準的な定数ステップサイズSGDと比較して、収束性をどのように改善するか？

主な発見

期待値の平均化反復点θ̄_γと真の最適解θ*との間のバイアスは、漸近的にO(γ)であり、これは一般の非二次的設定における定数ステップサイズSGDの非収束を説明する。
バイアス項は指数関数的に速く減少し、初期条件θ₀ - θ*に線形に依存する。ノルムN(θ₀ - θ*)は、忘れの速度を定量化する。
中心極限定理における分散項は初期条件に依存せず、勾配推定値のノイズ共分散に比例して増加する。
不変分布π_γとθ*におけるデルタ関数との間の非漸近的弱誤差展開を確立。弱い意味での収束速度はO(γ)であることを示した。
リチャードソン＝ロムバーグ補外を提案し、実験的にバイアスのO(γ)低減が有効であることを検証。グローバル最小値への収束が改善された。
E[‖θ̄_k^(γ) - θ̄_γ‖²] の理論的バOUNDSを導出。初期条件とノイズに明確な依存関係を持つバイアスと分散成分に明示的に分離された形で表現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。