[论文解读] Stochastic Majorization-Minimization Algorithms for Large-Scale Optimization
本文提出了一种用于大规模优化的随机稳定化最小化(SMM)算法,其中通过单个数据点更新代理函数并迭代最小化。该算法在凸问题中达到 O(1/√n) 的收敛速率,在非凸设置下几乎必然收敛到驻点,从而为机器学习和信号处理中的大规模或无限数据集提供了可扩展的解决方案。
Majorization-minimization algorithms consist of iteratively minimizing a majorizing surrogate of an objective function. Because of its simplicity and its wide applicability, this principle has been very popular in statistics and in signal processing. In this paper, we intend to make this principle scalable. We introduce a stochastic majorization-minimization scheme which is able to deal with large-scale or possibly infinite data sets. When applied to convex optimization problems under suitable assumptions, we show that it achieves an expected convergence rate of $O(1/\sqrt{n})$ after $n$ iterations, and of $O(1/n)$ for strongly convex functions. Equally important, our scheme almost surely converges to stationary points for a large class of non-convex problems. We develop several efficient algorithms based on our framework. First, we propose a new stochastic proximal gradient method, which experimentally matches state-of-the-art solvers for large-scale $\ell_1$-logistic regression. Second, we develop an online DC programming algorithm for non-convex sparse estimation. Finally, we demonstrate the effectiveness of our approach for solving large-scale structured matrix factorization problems.
研究动机与目标
- 解决大规模或无限数据集在机器学习和信号处理中主要化最小化(MM)算法的可扩展性问题。
- 开发一种MM的随机变体,通过单个数据点更新代理函数,降低对数据集大小的内存依赖。
- 在温和假设下,为凸和非凸优化问题建立理论收敛保证。
- 基于该框架设计高效算法,用于实际应用,如ℓ1-逻辑回归和结构化矩阵分解。
提出的方法
- 制定一种随机主要化最小化方案,该方案在每次迭代中基于单个观测数据点构建代理函数。
- 使用一阶代理函数,其具有ρ-强凸性,主导目标函数,并且近似误差的梯度满足L-Lipschitz连续性。
- 通过在线数据点逐步更新代理函数,确保内存复杂度与训练集大小无关。
- 通过一种新型随机近端梯度方法,将该方案应用于复合和约束问题。
- 通过在线DC规划将该框架扩展至非凸问题,用于稀疏估计。
- 将该算法应用于具有灵活损失函数和正则化函数的结构化矩阵分解。
实验结果
研究问题
- RQ1能否在保持收敛保证的前提下,使主要化最小化算法在大规模或无限数据集上实现可扩展性?
- RQ2对于凸问题和强凸问题,随机MM算法能达到怎样的收敛速率?
- RQ3在非凸优化问题中,随机MM方案是否几乎必然收敛到驻点?
- RQ4所提出的随机近端梯度方法与大规模ℓ1-逻辑回归任务的最先进求解器相比表现如何?
- RQ5该框架能否在在线设置下有效处理具有复杂正则化和损失函数的结构化矩阵分解问题?
主要发现
- 对于凸问题,随机MM算法在n次迭代后达到期望收敛速率O(1/√n),对于强凸问题则达到O(1/n)。
- 在适当假设下,对于非凸问题,该算法几乎必然收敛到一组驻点。
- 所提出的随机近端梯度方法在大规模ℓ1-逻辑回归任务中与最先进求解器表现相当。
- 在线DC规划算法在大规模非凸稀疏估计问题中优于批量替代方案。
- 该框架实现了高效的在线结构化矩阵分解,支持灵活的损失函数和正则化函数,扩展了先前工作。
- 理论分析证实了在温和条件下的收敛性,包括代理函数的统一收敛性和近似误差梯度的有界性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。