QUICK REVIEW

[论文解读] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018

Stochastic Gradient Optimization Techniques参考文献 14被引用 110

一句话总结

训练过程中的梯度集中在霍essian子空间的顶部（维数等于类别数），这个子空间在很大程度上保持近似不变，表明梯度下降实际上在一个很小的、在演化中的子空间内进行。

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

研究动机与目标

研究在大型、过参数化模型中，SGD期间梯度和Hessian谱的行为。
表征Hessian的子空间（顶部与整体）以及梯度在它们上的投影。
检查梯度动力学是否被限制在一个小的、缓慢变化的子空间及其对优化的影响。
在不同架构和数据集上提供经验证据，并给出一个示意模型来说明机制。

提出的方法

将Hessian分解为一个由其最大的k个特征向量张成的顶部子空间（k=类别数）和一个bulk子空间。
测量梯度在顶部子空间上的投影，并在整个训练过程中量化分数f_top = ||g_top||^2 / ||g||^2。
计算Hessian-梯度重叠来评估g与Hg之间的一致性，作为子空间集中度的代理。
在训练步骤中评估子空间重叠以确定顶部子空间的保持情况。
给出一个可求解的示例模型（高斯混合的softmax回归）来说明观察到的动力学。
使用Lanczos方法和Hessian-向量乘积在不构造完整Hessian的情况下估计顶部特征向量。

实验结果

研究问题

RQ1训练过程中梯度是否集中在顶部Hessian子空间？
RQ2在跨架构和数据集的长时间训练中，顶部Hessian子空间是否大致保持？
RQ3梯度在顶部子空间上的投影与优化进展之间的关系如何？
RQ4一个简单的示例模型是否能复现观察到的动力学并提供解析洞见？

主要发现

在跨架构和数据集的情况下，梯度很快集中在顶部Hessian子空间（维度为k，即类别数）。
顶部子空间在较长的训练期间大致保持，而bulk子空间变化得更快。
在经验测量中，梯度与其Hessian投影分量之间的重叠度很高（接近1）。
一个简单的示例模型能够重现这一现象：梯度位于顶层子空间，且Hessian有两个较大的特征值，其余接近于0。
包含小方差或偏置会扰动谱，但对主要的顶子空间集中性影响较小。
观察到的动力学表明梯度下降在高维、非凸损失景观中仍然有效地在一个凸的、低维子空间内进行。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。