QUICK REVIEW

[論文レビュー] Averaging Stochastic Gradient Descent on Riemannian Manifolds

Nilesh Tripuraneni, Nicolas Flammarion|arXiv (Cornell University)|Feb 26, 2018

Stochastic Gradient Optimization Techniques参考文献 37被引用数 40

ひとこと要約

この論文は、Riemannian manifold 上の徐々に収束する SGD イテレータを、O(1/n) 速度で安定かつ高速に収束する平均化された列へ変換する幾何フレームワークを開発し、geodesically-strongly-convex 問題とストリーミング k-PCA への応用を含む。

ABSTRACT

We consider the minimization of a function defined on a Riemannian manifold $\mathcal{M}$ accessible only through unbiased estimates of its gradients. We develop a geometric framework to transform a sequence of slowly converging iterates generated from stochastic gradient descent (SGD) on $\mathcal{M}$ to an averaged iterate sequence with a robust and fast $O(1/n)$ convergence rate. We then present an application of our framework to geodesically-strongly-convex (and possibly Euclidean non-convex) problems. Finally, we demonstrate how these ideas apply to the case of streaming $k$-PCA, where we show how to accelerate the slow rate of the randomized power method (without requiring knowledge of the eigengap) into a robust algorithm achieving the optimal rate of convergence.

研究の動機と目的

リーマン多様体上での確率的最適化を動機づけ、この設定へ反復回帰平均化を拡張する。
ストリーミング平均化を介して、遅い SGD 収束を速い O(1/n) 収束へ変換する幾何フレームワークを開発する。
多様体上の geodesically-strongly-convex な問題に対する一般理論を提供する。
ストリーミング PCA などの応用でこのフレームワークを示し、最適収束率を達成する。

提案手法

リーマン多様体上でリトラクション R とその逆を用いて SGD を定義し、次のような多様体周りのストリーミング平均更新を提案する： x_n = R_{x_{n-1}}(-γ_n ∇ f_n(x_{n-1})).
幾何的平均化ステップを導入する： tilde{x}_n = R_{tilde{x}_{n-1}}((1/n) R_{tilde{x}_{n-1}}^{-1}(x_n)).
接線空間 T_{x*}M で SGD 再起を線形化するには Δ_n = R_{x*}^{-1}(x_n) とし、ノイズと高次誤差項を含む摂動付き線形再起を導く。
平均化された接線ベクトル bar{Δ}_n が漸近的に速度 O(1/√n) で収束し、共分散 ∇^2f(x*)^{-1} Σ ∇^2f(x*)^{-1} を持つ漸近的ガウス分布を持つことを証明する。
接線空間の結果を再び多様体へ翻訳して、計算可能なストリーミング平均 tilde{x}_n の収束保証を得る。
標準的な確率近似およびリーマン幾何学の仮定（反復の有界性、リプシッツ Hessian、測地/リトラクション凸性）を適用して、非漸近的境界および漸近的正規性を得る。

実験結果

リサーチクエスチョン

RQ1Polyak-Ruppert イテレート平均化はリーマン多様体上の確率的最適化に適用できるか。
RQ2リーマン幾何イテレート平均化は geodesically-strongly-convex 設定で頑健で最適な O(1/n) 収束速度をもたらすか。
RQ3ストリーミング PCA のように多様体として見なした非凸なユークリッド問題へ、平均化手法をどう適用できるか。
RQ4多様体、目的関数、確率的勾配に対して、平均化手法が多様体上で Cramér-Rao 下界を達成するための条件は何か。

主な発見

幾何的平均化フレームワークは、多様体上で徐々に収束する SGD イテレータを、頑健な O(1/n) 収束を持つ平均化列へ変換する。
前提条件の下、スケールされた誤差 √n tilde{Δ}_n は、共分散 ∇^2f(x*)^{-1} Σ ∇^2f(x*)^{-1} を持つ正規分布に収束する。
4次モーメントの界が成り立つ場合、平均化誤差 E[|| tilde{Δ}_n ||^2] の非漸近的境界が与えられ、1/n の項と高次補正を示す。
このフレームワークは、γ_n ~ 1/n^α のステップサイズで geodesically-strongly-convex な関数に対して頑健で全局収束的な手法を提供し、最適な漸近分散を達成する。
ストリーミング k-PCA において、特定のスペクトル条件（例：λ_k > λ_{k+1}）の下で、漸近分布が既知の最適共分散構造と一致する、高速で頑健なアルゴリズムをもたらす。
結果は、有限和構造を必要とせず、古典的なユークリッド空間の平均化の利点をリーマン設定へ拡張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。