QUICK REVIEW

[论文解读] Measurements of Three-Level Hierarchical Structure in the Outliers in the Spectrum of Deepnet Hessians

Vardan Papyan|arXiv (Cornell University)|Jan 24, 2019

Adversarial Robustness in Machine Learning参考文献 24被引用 26

一句话总结

该论文揭示，深度神经网络海森矩阵谱中的异常值并非源于协方差结构，而是由梯度的非中心化二阶矩引起，这些矩阵在数据样本、类别和logit坐标之间呈现出三级分层结构。通过利用这种结构进行平均操作，可在无需完整特征分析的情况下高效近似海森矩阵的主子空间，且在多种架构和数据集上均验证了高精度。

ABSTRACT

We consider deep classifying neural networks. We expose a structure in the derivative of the logits with respect to the parameters of the model, which is used to explain the existence of outliers in the spectrum of the Hessian. Previous works decomposed the Hessian into two components, attributing the outliers to one of them, the so-called Covariance of gradients. We show this term is not a Covariance but a second moment matrix, i.e., it is influenced by means of gradients. These means possess an additive two-way structure that is the source of the outliers in the spectrum. This structure can be used to approximate the principal subspace of the Hessian using certain "averaging" operations, avoiding the need for high-dimensional eigenanalysis. We corroborate this claim across different datasets, architectures and sample sizes.

研究动机与目标

解释深度神经网络海森矩阵谱异常值的来源，此前研究将其归因于G分量（梯度协方差）。
表明G分量并非真正的协方差，而是一个二阶矩矩阵，其异常值源于梯度的非中心化均值。
提出一种通过在梯度统计量的分层分组上执行平均操作来近似海森矩阵主子空间的方法，避免昂贵的特征分析。
在多种架构（如ResNet18、VGG16）、数据集（MNIST、CIFAR10、ImageNet）和样本规模下验证该近似方法。
在无需执行特征分析的情况下，利用梯度均值的结构性质，预测异常值的大小和行为随样本规模的变化。

提出的方法

将海森矩阵分解为两个分量：H（高斯-牛顿项）和G（梯度的二阶矩），其中G是谱异常值的来源。
G矩阵表示为 $ G = \frac{1}{n} \Delta \Delta^T $，其中 $ \Delta $ 是按样本、类别和logit坐标索引的梯度导数矩阵。
将 $ \Delta $ 的列按类别 $ c $ 和logit坐标 $ c' $ 划分为 $ C^2 $ 个组，每组具有组均值 $ \delta_{c,c'} $ 和协方差 $ \Sigma_{c,c'} $，形成三级分层结构。
证明G的主导特征值可由 $ G_{1+2} = (C-1)\sum_c \delta_c \delta_c^T + \sum_c \delta_c \delta_c^T $ 的特征值近似，该矩阵聚合了类别和logit坐标上的组均值。
通过在 $ \delta_{c,c'} $ 上执行低秩近似和平均操作，实现主子空间的高效计算，无需完整SVD或幂迭代。
实验验证使用FastLanczos和LowRankDeflation近似谱密度，对比不同架构和数据集上 $ G $、$ G_1 $、$ G_2 $ 和 $ G_{1+2} $ 的表现。

实验结果

研究问题

RQ1深度神经网络海森矩阵中的谱异常值由何引起？为何G分量并非真正的协方差矩阵？
RQ2梯度均值在样本、类别和logit坐标之间的分层结构如何导致异常特征值？
RQ3能否仅通过梯度均值上的平均操作高效近似海森矩阵的主子空间，而无需特征分析？
RQ4异常值的大小如何随训练样本规模变化？是否可在不计算特征值的情况下进行预测？
RQ5近似量 $ G_1 $、$ G_2 $ 和 $ G_{1+2} $ 与 $ G $ 的真实前几位特征值的匹配程度如何？任何偏差的原因是什么？

主要发现

海森矩阵中的谱异常值由梯度的非中心化二阶矩引起，而非协方差结构，因为G分量缺乏均值减除。
G的主导特征值可被 $ G_{1+2} $ 的特征值良好近似，后者聚合了类别和logit坐标上的组均值。
$ G_{1+2} $ 的前 $ C $ 个特征值占主导地位，且与 $ G_1 $ 的特征值高度一致，表明分层均值结构足以实现主子空间的近似。
$ G_0 $ 的特征值（代表全局均值）可忽略不计，在谱的主瓣中仅表现为一个青色点。
在所有测试数据集（MNIST、Fashion MNIST、CIFAR10、ImageNet）和架构（ResNet18、VGG16、ResNet50）中，$ G_{1+2} $ 的近似结果始终与谱中的真实异常值一致。
$ G_{1+2} $ 与 $ G $ 之间的偏差与随机矩阵理论的预测一致，证实了分层模型的稳健性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。