Skip to main content
QUICK REVIEW

[论文解读] Practical Gauss-Newton Optimisation for Deep Learning

Aleksandar Botev, Hippolyt Ritter|arXiv (Cornell University)|Jun 12, 2017
Blind Source Separation Techniques被引用 34
一句话总结

本文提出 KFRA,一种用于深度学习的实用高斯-牛顿优化方法,通过递归地对高斯-牛顿矩阵进行分块对角近似,实现高效的二阶优化。该方法在默认超参数设置下,性能可与 SOTA 的一阶方法(如 Adam)相媲美,并且在与精确高斯-牛顿更新的对齐程度上优于 KFAC。

ABSTRACT

We present an efficient block-diagonal ap- proximation to the Gauss-Newton matrix for feedforward neural networks. Our result- ing algorithm is competitive against state- of-the-art first order optimisation methods, with sometimes significant improvement in optimisation performance. Unlike first-order methods, for which hyperparameter tuning of the optimisation parameters is often a labo- rious process, our approach can provide good performance even when used with default set- tings. A side result of our work is that for piecewise linear transfer functions, the net- work objective function can have no differ- entiable local maxima, which may partially explain why such transfer functions facilitate effective optimisation.

研究动机与目标

  • 开发一种高效的深度神经网络二阶优化方法,避免完整海森矩阵计算的计算不可行性。
  • 解决 SGD 和 Adam 等一阶方法的超参数敏感性问题,这些方法需要大量调优才能达到最佳性能。
  • 提供一种可扩展的二阶优化方法,利用曲率信息,同时避免显式存储或计算海森矩阵。
  • 在理论和实证上建立高斯-牛顿近似与具有分段线性激活函数的网络中不存在可微局部极大值之间的联系。

提出的方法

  • 该方法递归地计算高斯-牛顿矩阵的分块对角近似,其中每个块对应网络中单一层的权重。
  • 每个块被近似为两个矩阵的克罗内克积:一个来自激活(输入统计量),另一个来自损失的二阶梯度(预激活的海森矩阵)。
  • 该算法通过扩展自动微分在单次反向传播中同时计算梯度和曲率近似,包括用于海森-向量乘积的 R-算子。
  • 通过 Tikhonov 类似项(η 和 γ)施加正则化,以稳定矩阵求逆并改善泛化性能。
  • 该方法设计为与标准深度学习框架兼容,并可自然地集成到现有的反向传播流水线中。
  • 该方法在指数族模型下与 KFAC 等价,但其区别在于对高斯-牛顿矩阵的近似,而非对费雪信息矩阵的近似。

实验结果

研究问题

  • RQ1能否在前馈网络中通过单次反向传播高效计算高斯-牛顿矩阵的分块对角、克罗内克分解近似?
  • RQ2该近似是否能实现优于或匹配一阶方法(如 Adam)的二阶优化,且无需大量超参数调优?
  • RQ3为何分段线性激活函数有助于实现有效优化,这是否与损失曲面中不存在可微严格局部极大值有关?
  • RQ4与现有方法(如 KFAC)相比,该方法与精确高斯-牛顿更新的对齐程度如何?
  • RQ5曲率近似质量对优化收敛性和泛化性能有何影响?

主要发现

  • 所提出的 KFRA 方法在标准基准测试(CURVES、FACES、MNIST)上实现了具有竞争力的训练性能,通常与经过精细调优的一阶方法(如 Adam)相当或更优,且无需学习率调度或超参数调优。
  • 该方法与精确高斯-牛顿更新的对齐程度显著优于 KFAC,尤其在训练初期,表明其曲率近似更为准确。
  • 对于具有分段线性激活函数的网络,误差曲面中不存在可微的严格局部极大值,这或许可以解释其优化行为的优越性。
  • 在非指数族模型中,分块对角高斯-牛顿近似比 KFAC 的费雪近似更准确,因为两者在此类模型中存在差异。
  • 通过单次反向传播同时计算梯度和曲率近似,实现了高效的实现方式,使大规模深度网络的二阶优化成为可能。
  • 实证结果表明,近似质量(尤其是与完整高斯-牛顿矩阵的对齐程度)在整个训练过程中保持较高水平,尤其在 MNIST 和 CURVES 上表现优异,仅在 FACES 上因共轭梯度求解的病态条件导致轻微退化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。