QUICK REVIEW

[论文解读] Averaging Stochastic Gradient Descent on Riemannian Manifolds

Nilesh Tripuraneni, Nicolas Flammarion|arXiv (Cornell University)|Feb 26, 2018

Stochastic Gradient Optimization Techniques参考文献 37被引用 40

一句话总结

该论文提出一个几何框架，将在黎曼流形上缓慢收敛的 SGD 迭代转化为一个稳健、收敛速度快的平均序列，收敛速率为 O(1/n)，并应用于测地强凸问题及流式 k-PCA。

ABSTRACT

We consider the minimization of a function defined on a Riemannian manifold $\mathcal{M}$ accessible only through unbiased estimates of its gradients. We develop a geometric framework to transform a sequence of slowly converging iterates generated from stochastic gradient descent (SGD) on $\mathcal{M}$ to an averaged iterate sequence with a robust and fast $O(1/n)$ convergence rate. We then present an application of our framework to geodesically-strongly-convex (and possibly Euclidean non-convex) problems. Finally, we demonstrate how these ideas apply to the case of streaming $k$-PCA, where we show how to accelerate the slow rate of the randomized power method (without requiring knowledge of the eigengap) into a robust algorithm achieving the optimal rate of convergence.

研究动机与目标

在黎曼流形上 motivates 随机优化并将迭代平均推广到此设置。
发展一个几何框架，通过流式平均将慢速的 SGD 收敛转化为快速的 O(1/n) 收敛。
为流形上的测地强凸问题提供一般理论。
在如流式 PCA 的应用中展示该框架以达到最优收敛速率。

提出的方法

使用重投影 R 及其逆定义黎曼流形上的 SGD，并提出在流形周围的流式平均更新： x_n = R_{x_{n-1}}(-γ_n ∇f_n(x_{n-1})).
引入几何平均步骤： tilde{x}_n = R_{tilde{x}_{n-1}}((1/n) R_{tilde{x}_{n-1}}^{-1}(x_n)).
通过 Δ_n = R_{x*}^{-1}(x_n) 将 SGD 递推在切空间 T_{x*}M 线性化，并推导带有噪声项和高阶误差项的扰动线性递推。
证明平均的切向量 bar{Δ}_n 在渐近意义上以 O(1/√n) 收敛，并具备渐近正态分布，其协方差为 ∇^2f(x*)^{-1} Σ ∇^2f(x*)^{-1}。
将切空间结果映回到流形上，从而获得可计算的流式平均 tilde{x}_n 的收敛性保证。
采用一组标准的随机逼近与黎曼几何假设（有界迭代、Hessian 的 Lipschitz、测地/重投影凸性）以得到非渐近界和渐近正态性。

实验结果

研究问题

RQ1Polyak-Ruppert 迭代平均是否可以适用于黎曼流形上的随机优化？
RQ2在测地强凸设置下，黎曼迭代平均能否给出稳健、最优的 O(1/n) 收敛速率？
RQ3如何将平均化技术应用于看作流形上的非凸欧几里得问题，如流式 PCA？
RQ4在流形、目标函数和随机梯度的条件下，哪些条件确保平均化方案达到流形上的 Cramér–Rao 上界？

主要发现

几何平均框架将流形上缓慢收敛的 SGD 迭代转化为具有稳健 O(1/n) 收敛性的平均序列。
在所述假设下，缩放误差 √n tilde{Δ}_n 的分布极限收敛到协方差 ∇^2f(x*)^{-1} Σ ∇^2f(x*)^{-1} 的正态分布。
当存在第四阶矩界时，给出平均误差 E[|| tilde{Δ}_n ||^2] 的非渐近界，显示出 1/n 项及其高阶改项。
该框架为测地强凸函数提供了一个鲁棒的全局收敛方法，步长 γ_n ~ 1/n^α，达到最优渐近方差。
在流式 k-PCA 中，该方法给出一个快速、鲁棒的算法，其渐近分布在某些谱条件下与已知的最优协方差结构相匹配（例如，λ_k > λ_{k+1}）。
结果将经典的欧几里得平均收益扩展到黎曼设置，而不要求有限和结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。