QUICK REVIEW

[论文解读] Structured Stochastic Quasi-Newton Methods for Large-Scale Optimization Problems

Minghan Yang, Dong Xu|arXiv (Cornell University)|Jun 17, 2020

Sparse and Compressive Sensing Techniques被引用 3

一句话总结

本论文提出了一种用于大规模非凸优化的结构化随机拟牛顿方法，通过利用部分 Hessian 信息和基于 Nystrom 的低秩近似，实现高效拟牛顿方向计算。该方法在期望下实现全局收敛，并在局部实现超线性收敛，在逻辑回归、自编码器和深度学习任务上优于当前最先进方法。

ABSTRACT

In this paper, we consider large-scale finite-sum nonconvex problems arising from machine learning. Since the Hessian is often a summation of a relative cheap and accessible part and an expensive or even inaccessible part, a stochastic quasi-Newton matrix is constructed using partial Hessian information as much as possible. By further exploiting the low-rank structures based on the Nystrom approximation, the computation of the quasi-Newton direction is affordable. To make full use of the gradient estimation, we also develop an extra-step strategy for this framework. Global convergence to stationary point in expectation and local suplinear convergence rate are established under some mild assumptions. Numerical experiments on logistic regression, deep autoencoder networks and deep learning problems show that the efficiency of our proposed method is at least comparable with the state-of-the-art methods.

研究动机与目标

解决大规模非凸优化在机器学习中 Hessian 矩阵计算成本过高的挑战。
开发一种利用可访问部分 Hessian 信息以减轻计算负担的随机拟牛顿框架。
通过 Nystrom 近似利用低秩结构，使拟牛顿方向计算变得可行。
通过额外步骤策略提升梯度利用效率，改善收敛性和效率。
在温和假设下，建立对平稳点的全局收敛性以及局部超线性收敛性保证。

提出的方法

仅使用 Hessian 的廉价且可访问部分构建随机拟牛顿 Hessian 近似，避免完整 Hessian 矩阵的计算。
应用 Nystrom 近似以利用 Hessian 中的低秩结构，显著降低矩阵求逆和方向计算的成本。
集成额外步骤策略以改善梯度估计并增强收敛行为。
设计一种拟牛顿更新规则，结合部分 Hessian 数据与低秩校正，以提高搜索方向的准确性。
通过将矩阵运算限制在由 Nystrom 近似导出的低维子空间内，确保计算效率。
通过在温和假设下精心设计随机 Hessian 近似与更新机制，维持收敛性保证。

实验结果

研究问题

RQ1能否设计一种随机拟牛顿方法，仅使用部分 Hessian 信息，高效处理大规模非凸问题？
RQ2如何有效将类似 Nystrom 的低秩近似方法集成到随机拟牛顿框架中，以降低计算成本？
RQ3所提出的额外步骤策略是否能改善随机拟牛顿方法中的收敛性和梯度利用效率？
RQ4在全局收敛性和局部超线性收敛速率方面，该方法能建立怎样的收敛性保证？
RQ5在实际应用中，该方法与当前最先进的机器学习优化算法相比表现如何？

主要发现

在温和假设下，所提方法在期望下实现对平稳点的全局收敛。
局部收敛呈现超线性速率，表明在最优解附近能实现快速改进。
通过 Nystrom 近似利用低秩结构，该方法保持了计算效率。
在逻辑回归、深度自编码器和深度学习模型上的数值实验表明，其性能与当前最先进方法相当。
额外步骤策略增强了梯度利用，有助于改善收敛行为。
该框架通过仅使用 Hessian 的可访问部分和低秩近似，有效平衡了计算成本与精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。