Skip to main content
QUICK REVIEW

[论文解读] Second-Order Optimization for Non-Convex Machine Learning: An Empirical Study

Peng Xu, Farbod Roosta-Khorasani|arXiv (Cornell University)|Aug 25, 2017
Stochastic Gradient Optimization Techniques参考文献 54被引用 35
一句话总结

本文通过实证评估子采样信赖域(TR)和自适应立方正则化(ARC)方法——两种利用海森矩阵信息的二阶优化技术——在非凸机器学习问题中的表现。结果表明,这些方法在计算效率上可与手动调优的带动量SGD相媲美,对超参数设置具有强鲁棒性,并能有效逃离鞍点和平坦区域,从而在更少的迭代次数内实现更优的泛化性能。

ABSTRACT

While first-order optimization methods such as stochastic gradient descent (SGD) are popular in machine learning (ML), they come with well-known deficiencies, including relatively-slow convergence, sensitivity to the settings of hyper-parameters such as learning rate, stagnation at high training errors, and difficulty in escaping flat regions and saddle points. These issues are particularly acute in highly non-convex settings such as those arising in neural networks. Motivated by this, there has been recent interest in second-order methods that aim to alleviate these shortcomings by capturing curvature information. In this paper, we report detailed empirical evaluations of a class of Newton-type methods, namely sub-sampled variants of trust region (TR) and adaptive regularization with cubics (ARC) algorithms, for non-convex ML problems. In doing so, we demonstrate that these methods not only can be computationally competitive with hand-tuned SGD with momentum, obtaining comparable or better generalization performance, but also they are highly robust to hyper-parameter settings. Further, in contrast to SGD with momentum, we show that the manner in which these Newton-type methods employ curvature information allows them to seamlessly escape flat regions and saddle points.

研究动机与目标

  • 评估子采样牛顿型方法(特别是信赖域TR与自适应立方正则化ARC)在非凸机器学习设置下的实际性能。
  • 解决SGD带动量等一阶方法的关键局限,包括收敛缓慢、学习率敏感、在高损失处停滞,以及难以逃离鞍点。
  • 探究通过海森矩阵近似引入曲率信息的二阶方法,是否能在深度学习与非线性最小二乘问题中同时实现计算竞争力、提升鲁棒性与泛化性能。

提出的方法

  • 研究采用随机子采样方法近似TR与ARC算法中的海森矩阵,以降低每轮迭代的计算成本,同时保持收敛性质。
  • 信赖域方法通过求解一个带有信赖域约束的二次模型子问题,确保目标函数的充分下降。
  • 自适应立方正则化(ARC)使用一个带有正则化参数的立方模型,该参数根据模型预测下降与实际函数下降的一致性进行动态调整。
  • 通过使用随机子采样海森矩阵来计算海森矩阵近似,以在准确度与计算成本之间取得平衡。
  • 在深度多层感知机与非线性最小二乘(NLS)问题上评估该方法,涵盖随机初始化与不良初始化两种情形。
  • 与带动量SGD及其他二阶方法(如L-BFGS与高斯-牛顿GN)进行比较,使用真实世界数据集与受控的超参数设置。

实验结果

研究问题

  • RQ1子采样TR与ARC方法是否能在非凸机器学习问题中实现与手动调优SGD带动量相当的计算效率?
  • RQ2牛顿型方法的性能是否在不同超参数设置下依然保持鲁棒,尤其是相较于一阶方法对学习率的高敏感性?
  • RQ3二阶方法是否能有效逃离SGD带动量常会停滞的鞍点与平坦区域?
  • RQ4海森矩阵提供的曲率信息在多大程度上提升了泛化性能与收敛速度?
  • RQ5子采样策略(尤其是非均匀采样)与均匀采样相比,对二阶方法性能的影响如何?

主要发现

  • 由于子采样带来的低每轮迭代成本以及对曲率信息的有效利用,子采样TR与ARC方法在计算效率上可与手动调优的SGD带动量相媲美。
  • TR与ARC方法对超参数调优具有极强的鲁棒性,尤其相较于SGD带动量对学习率的高敏感性,表现更为稳定。
  • 牛顿型方法即使在如全1向量等不良初始化条件下,也能成功逃离鞍点与平坦区域,而SGD带动量则往往无法取得进展。
  • 二阶方法仅需少数迭代即可实现良好的泛化性能,因此在通信成本较高的分布式训练中极具适用性。
  • 非均匀子采样相比均匀采样提供了可测量的性能优势,尤其在真实数据集上能显著加速收敛。
  • 尽管L-BFGS与高斯-牛顿在理论上具有优势,但在实际设置中,TR与ARC仍优于这些二阶方法,可能归因于子问题求解器的实现问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。