QUICK REVIEW

[论文解读] Eigenvalues of the Hessian in Deep Learning: Singularity and Beyond

Levent Sagun, Léon Bottou|arXiv (Cornell University)|Nov 22, 2016

Stochastic Gradient Optimization Techniques参考文献 9被引用 120

一句话总结

本文分析深度网络在训练前后的Hessian谱，揭示了接近零的高度退化（奇异）块和一个与数据相关的一组大且离散的特征值，这些发现对优化和景观拓扑具有意义。

ABSTRACT

We look at the eigenvalues of the Hessian of a loss function before and after training. The eigenvalue distribution is seen to be composed of two parts, the bulk which is concentrated around zero, and the edges which are scattered away from zero. We present empirical evidence for the bulk indicating how over-parametrized the system is, and for the edges that depend on the input data.

研究动机与目标

研究深度神经网络在训练前后损失 Hessian 的特征值分布。
描述谱如何分解为零/近零的大块和一个与数据相关的清晰边缘。
理解网络规模和数据复杂度如何影响Hessian谱及训练动力学。
讨论对深度学习中的优化理论和算法设计的实际意义。

提出的方法

对在 MNIST 和简单二维数据上训练的全连接网络，使用 Hessian 向量乘法（Hessian-vector product）计算精确的 Hessian。
绘制在不同网络规模和数据配置下的 Hessian 特征值直方图。
比较随机数据、MNIST 数据和简单高斯簇的 Hessian 谱，以分离数据与结构（架构）效应。
跟踪训练过程中特征值谱的演变，以观察训练如何将特征值收敛到零附近。
考察不同损失函数（例如交叉熵与均方误差）对谱的影响。

实验结果

研究问题

RQ1深度网络在收敛时，Hessian 特征值分布的结构是什么？
RQ2谱的大块和边缘如何依赖于架构与数据？
RQ3训练如何影响靠近零的特征值的集中？
RQ4不同的数据复杂度或损失函数是否会改变离散的、数据相关的特征值？

主要发现

Hessian 谱由一个以0为中心的大块和一组分离的、巨大的离散特征值组成。
离散的、数据相关的特征值取决于输入数据，而大块则取决于架构。
增大网络规模会使特征值更集中在零附近，而数据相关的边缘在某种程度上仍然保留。
训练动力学将许多特征值推向零，但负特征值仍然存在，表示非凸、非退化的景观。
两阶段的非退化性（数据驱动的边缘与模型驱动的大块）可能产生平坦区域，并为新的优化视角提供指引。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。