QUICK REVIEW

[论文解读] Non-strongly-convex smooth stochastic approximation with convergence rate O(1/n)

Francis Bach, Éric Moulines|arXiv (Cornell University)|Jun 10, 2013

Stochastic Gradient Optimization Techniques参考文献 34被引用 228

一句话总结

本文提出了两种新颖的随机优化算法，可在非强凸、光滑问题中实现 O(1/n) 的收敛速率——这与标准随机梯度下降仅能达到 O(1/√n) 的收敛速率形成对比。对于最小二乘回归，本文证明了使用常数步长的平均随机梯度下降可实现 O(1/n) 的收敛速率；对于逻辑回归，提出了一种新算法，在保持 SGD 计算效率的同时构建局部二次逼近。

ABSTRACT

We consider the stochastic approximation problem where a convex function has to be minimized, given only the knowledge of unbiased estimates of its gradients at certain points, a framework which includes machine learning methods based on the minimization of the empirical risk. We focus on problems without strong convexity, for which all previously known algorithms achieve a convergence rate for function values of O(1/n^{1/2}). We consider and analyze two algorithms that achieve a rate of O(1/n) for classical supervised learning problems. For least-squares regression, we show that averaged stochastic gradient descent with constant step-size achieves the desired rate. For logistic regression, this is achieved by a simple novel stochastic gradient algorithm that (a) constructs successive local quadratic approximations of the loss functions, while (b) preserving the same running time complexity as stochastic gradient descent. For these algorithms, we provide a non-asymptotic analysis of the generalization error (in expectation, and also in high probability for least-squares), and run extensive experiments on standard machine learning benchmarks showing that they often outperform existing approaches.

研究动机与目标

填补非强凸随机优化中收敛速率的空白，因为标准方法仅能达到 O(1/√n)。
开发在不依赖强凸性条件下实现 O(1/n) 收敛速率的算法，而强凸性在高维机器学习问题中通常不成立。
在保持与标准随机梯度下降相当的计算效率的同时，提升收敛速度。
为所提出的算法提供在期望和高概率下的非渐近泛化误差界。
通过实证结果表明，所提方法在标准机器学习基准测试中优于现有方法。

提出的方法

针对最小二乘回归，分析使用常数步长的平均随机梯度下降，证明在光滑性和矩条件成立下可实现 O(1/n) 收敛速率。
针对逻辑回归，提出一种新型随机算法，通过构建损失函数的连续局部二次逼近。
确保新算法的每轮迭代复杂度与标准 SGD 相同，从而实现对大规模数据集的可扩展性。
采用非渐近分析，为两种算法的期望和高概率泛化误差提供上界。
利用损失函数的光滑性（平方损失和逻辑损失），在缺乏强凸性的情况下推导出更紧致的收敛速率。
引入一种新颖的分析框架，结合算子不等式与矩界，以控制迭代序列及其与最优解偏差的演化。

实验结果

研究问题

RQ1在标准方法仅能达到 O(1/√n) 收敛速率的情况下，随机优化能否在非强凸问题中实现 O(1/n) 收敛？
RQ2在不依赖强凸性的情况下，常数步长的平均 SGD 是否能在最小二乘回归中实现 O(1/n) 收敛？
RQ3能否通过结合局部二次逼近与低计算开销，使逻辑回归的随机算法实现 O(1/n) 收敛？
RQ4所提算法在期望和高概率下的非渐近泛化误差界是什么？
RQ5在标准机器学习基准测试中，所提算法与现有方法相比表现如何？

主要发现

使用常数步长的平均随机梯度下降在不依赖强凸性的情况下，可实现最小二乘回归的 O(1/n) 收敛速率。
对于逻辑回归，所提算法通过局部二次逼近在保持与标准 SGD 相同运行时间复杂度的同时，实现了 O(1/n) 收敛速率。
最小二乘算法的泛化误差在期望和高概率下均有界，且显式依赖于问题参数。
在包括 quantum、rcv1 和 news 在内的数据集上的实证结果表明，所提方法在测试性能和训练目标收敛方面通常优于现有方法。
在非稀疏数据集上，SAG 达到最小的训练误差；但在高维稀疏数据集上，常数步长 SGD 表现最佳，证实了所提方法的实际优势。
理论分析表明，收敛速率的提升源于对损失函数光滑性的利用，即使在缺乏强凸性时亦成立。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。