Skip to main content
QUICK REVIEW

[论文解读] The Full Spectrum of Deep Net Hessians At Scale: Dynamics with Sample Size.

Vardan Papyan|arXiv (Cornell University)|Nov 16, 2018
Model Reduction and Neural Networks被引用 18
一句话总结

本文运用先进的数值线性代数方法,高效地近似了在真实数据上训练的具有数千万参数的大规模深度神经网络的海森谱。研究确认了尖刺型海森结构——即离散的异常值与连续主体分离——并通过分解海森矩阵,分析了各组成部分在训练过程和样本规模变化下的演化规律。

ABSTRACT

We apply state-of-the-art tools in modern high-dimensional numerical linear algebra to approximate efficiently the spectrum of the Hessian of modern deepnets, with tens of millions of parameters, trained on real data. Our results corroborate previous findings, based on small-scale networks, that the Hessian exhibits spiked behavior, with several outliers isolated from a continuous bulk. We decompose the Hessian into different components and study the dynamics with training and sample size of each term individually.

研究动机与目标

  • 理解在真实世界数据上训练的大规模深度神经网络海森谱的谱特性。
  • 将先前在小规模模型中发现的海森尖刺行为扩展至具有数千万参数的模型。
  • 将海森矩阵分解为不同组成部分,以研究其在训练过程及不同样本规模下的独立演化动态。
  • 探究训练进展与数据集规模如何影响海森谱的结构与组成。

提出的方法

  • 利用高维数值线性代数领域的前沿工具,高效地近似海森谱。
  • 应用随机化SVD与迹估计技术,以应对大规模模型中完整海森矩阵计算的计算不可行性。
  • 将海森矩阵分解为数据相关项与权重正则化项等不同组成部分,以分别分析。
  • 追踪训练轮次和样本规模增加过程中特征值分布及异常值成分的演化。
  • 使用经验谱分布分析识别海森谱中的主体区域与尖刺区域。
  • 通过对比不同网络架构与数据场景下的谱动态,验证研究发现。

实验结果

研究问题

  • RQ1在真实数据上训练的大规模深度神经网络的海森谱与小规模模型相比,在尖刺行为方面有何异同?
  • RQ2海森矩阵的哪些组成部分(如数据项、正则化项)对谱中异常值的出现贡献最大?
  • RQ3对于大规模模型,海森矩阵的特征值分布如何随训练过程演化?
  • RQ4增加训练样本规模如何影响海森谱的结构与稳定性?
  • RQ5在高维深度学习模型中,通过分量分解在多大程度上能澄清海森特征值的演化动态?

主要发现

  • 在真实数据上训练的大规模深度神经网络的海森矩阵表现出清晰的尖刺行为,即多个孤立特征值与连续主体分离,与小规模模型中的发现一致。
  • 异常特征值主要由海森矩阵的数据相关分量驱动,特别是与最小值附近损失曲率相关的部分。
  • 随着训练的推进,海森谱的主体部分保持相对稳定,而异常值的数量与幅值则以非单调方式演化。
  • 增加训练样本规模可使海森谱更加稳定且分布更均衡,降低极端特征值的显著性。
  • 分量分解表明,正则化项对主体部分的贡献更均匀,而数据项则主导异常值谱。
  • 观察到的谱动态在不同架构间保持一致,表明大规模深度网络海森结构中存在可泛化的模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。