QUICK REVIEW

[论文解读] Second-Order Optimization for Non-Convex Machine Learning: An Empirical Study

Peng Xu, Farbod Roosta-Khorasani|arXiv (Cornell University)|Aug 25, 2017

Stochastic Gradient Optimization Techniques参考文献 54被引用 35

一句话总结

本文通过实证评估子采样信赖域（TR）和自适应立方正则化（ARC）方法——两种利用海森矩阵信息的二阶优化技术——在非凸机器学习问题中的表现。结果表明，这些方法在计算效率上可与手动调优的带动量SGD相媲美，对超参数设置具有强鲁棒性，并能有效逃离鞍点和平坦区域，从而在更少的迭代次数内实现更优的泛化性能。

ABSTRACT

While first-order optimization methods such as stochastic gradient descent (SGD) are popular in machine learning (ML), they come with well-known deficiencies, including relatively-slow convergence, sensitivity to the settings of hyper-parameters such as learning rate, stagnation at high training errors, and difficulty in escaping flat regions and saddle points. These issues are particularly acute in highly non-convex settings such as those arising in neural networks. Motivated by this, there has been recent interest in second-order methods that aim to alleviate these shortcomings by capturing curvature information. In this paper, we report detailed empirical evaluations of a class of Newton-type methods, namely sub-sampled variants of trust region (TR) and adaptive regularization with cubics (ARC) algorithms, for non-convex ML problems. In doing so, we demonstrate that these methods not only can be computationally competitive with hand-tuned SGD with momentum, obtaining comparable or better generalization performance, but also they are highly robust to hyper-parameter settings. Further, in contrast to SGD with momentum, we show that the manner in which these Newton-type methods employ curvature information allows them to seamlessly escape flat regions and saddle points.

研究动机与目标

评估子采样牛顿型方法（特别是信赖域TR与自适应立方正则化ARC）在非凸机器学习设置下的实际性能。
解决SGD带动量等一阶方法的关键局限，包括收敛缓慢、学习率敏感、在高损失处停滞，以及难以逃离鞍点。
探究通过海森矩阵近似引入曲率信息的二阶方法，是否能在深度学习与非线性最小二乘问题中同时实现计算竞争力、提升鲁棒性与泛化性能。

提出的方法

研究采用随机子采样方法近似TR与ARC算法中的海森矩阵，以降低每轮迭代的计算成本，同时保持收敛性质。
信赖域方法通过求解一个带有信赖域约束的二次模型子问题，确保目标函数的充分下降。
自适应立方正则化（ARC）使用一个带有正则化参数的立方模型，该参数根据模型预测下降与实际函数下降的一致性进行动态调整。
通过使用随机子采样海森矩阵来计算海森矩阵近似，以在准确度与计算成本之间取得平衡。
在深度多层感知机与非线性最小二乘（NLS）问题上评估该方法，涵盖随机初始化与不良初始化两种情形。
与带动量SGD及其他二阶方法（如L-BFGS与高斯-牛顿GN）进行比较，使用真实世界数据集与受控的超参数设置。

实验结果

研究问题

RQ1子采样TR与ARC方法是否能在非凸机器学习问题中实现与手动调优SGD带动量相当的计算效率？
RQ2牛顿型方法的性能是否在不同超参数设置下依然保持鲁棒，尤其是相较于一阶方法对学习率的高敏感性？
RQ3二阶方法是否能有效逃离SGD带动量常会停滞的鞍点与平坦区域？
RQ4海森矩阵提供的曲率信息在多大程度上提升了泛化性能与收敛速度？
RQ5子采样策略（尤其是非均匀采样）与均匀采样相比，对二阶方法性能的影响如何？

主要发现

由于子采样带来的低每轮迭代成本以及对曲率信息的有效利用，子采样TR与ARC方法在计算效率上可与手动调优的SGD带动量相媲美。
TR与ARC方法对超参数调优具有极强的鲁棒性，尤其相较于SGD带动量对学习率的高敏感性，表现更为稳定。
牛顿型方法即使在如全1向量等不良初始化条件下，也能成功逃离鞍点与平坦区域，而SGD带动量则往往无法取得进展。
二阶方法仅需少数迭代即可实现良好的泛化性能，因此在通信成本较高的分布式训练中极具适用性。
非均匀子采样相比均匀采样提供了可测量的性能优势，尤其在真实数据集上能显著加速收敛。
尽管L-BFGS与高斯-牛顿在理论上具有优势，但在实际设置中，TR与ARC仍优于这些二阶方法，可能归因于子问题求解器的实现问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。