Skip to main content
QUICK REVIEW

[论文解读] Singularity of the Hessian in Deep Learning.

Levent Sagun, Léon Bottou|arXiv (Cornell University)|Nov 22, 2016
Stochastic Gradient Optimization Techniques参考文献 2被引用 30
一句话总结

本文分析了深度学习损失函数的海森矩阵特征值谱,揭示其呈现双峰分布:接近零的密集主干部分表明模型过参数化,而分散的边缘特征值则反映数据复杂性。实证分析表明,主干大小与模型容量相关,而边缘特征值则编码了输入数据的结构。

ABSTRACT

We look at the eigenvalues of the Hessian of a loss function before and after training. The eigenvalue distribution is seen to be composed of two parts, the bulk which is concentrated around zero, and the edges which are scattered away from zero. We present empirical evidence for the bulk indicating how over-parametrized the system is, and for the edges indicating the complexity of the input data.

研究动机与目标

  • 理解训练后深度神经网络海森矩阵的谱特性。
  • 研究海森矩阵特征值分布如何反映模型的过参数化与数据复杂性。
  • 通过实证方法将海森矩阵谱的结构与深度学习模型的架构特征及数据相关特性联系起来。

提出的方法

  • 计算训练后深度神经网络损失函数的海森矩阵。
  • 对海森矩阵进行谱分析,提取特征值分布。
  • 将特征值谱分解为两部分:靠近零点的密集主干部分与孤立的边缘特征值。
  • 利用主干的大小与展宽程度来估计模型的过参数化程度。
  • 利用边缘特征值的大小与分布来推断数据复杂性。
  • 分析训练前与训练后的海森矩阵谱,观察其谱演化过程。

实验结果

研究问题

  • RQ1在深度神经网络的训练过程中,海森矩阵特征值谱如何变化?
  • RQ2海森矩阵特征值分布的主干部分揭示了关于模型过参数化的哪些信息?
  • RQ3边缘特征值如何与输入数据的内在复杂性相关联?
  • RQ4海森矩阵谱能否作为模型容量与数据结构的诊断工具?
  • RQ5海森矩阵谱与泛化性能之间存在何种关系?

主要发现

  • 海森矩阵特征值谱始终表现出一个集中在零点附近的密集主干,表明深度模型存在高度过参数化。
  • 主干的大小与模型过参数化的程度相关,主干越大,表明模型容量越高。
  • 远离零点分布的边缘特征值并非随机分布,而是反映了数据的内在复杂性。
  • 边缘特征值的分布在整个不同架构与数据集上保持稳定,表明其与数据存在结构性关联。
  • 海森矩阵的谱结构在模型收敛后基本保持不变,表明优化景观具有稳定性。
  • 非零边缘特征值的存在表明,即使在过参数化区域,损失曲面在所有方向上也并非平坦。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。