QUICK REVIEW
[论文解读] Gradient Descent Happens in a Tiny Subspace
Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018
Stochastic Gradient Optimization Techniques参考文献 14被引用 110
一句话总结
训练过程中的梯度集中在霍essian子空间的顶部(维数等于类别数),这个子空间在很大程度上保持近似不变,表明梯度下降实际上在一个很小的、在演化中的子空间内进行。
ABSTRACT
We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.
研究动机与目标
- 研究在大型、过参数化模型中,SGD期间梯度和Hessian谱的行为。
- 表征Hessian的子空间(顶部与整体)以及梯度在它们上的投影。
- 检查梯度动力学是否被限制在一个小的、缓慢变化的子空间及其对优化的影响。
- 在不同架构和数据集上提供经验证据,并给出一个示意模型来说明机制。
提出的方法
- 将Hessian分解为一个由其最大的k个特征向量张成的顶部子空间(k=类别数)和一个bulk子空间。
- 测量梯度在顶部子空间上的投影,并在整个训练过程中量化分数f_top = ||g_top||^2 / ||g||^2。
- 计算Hessian-梯度重叠来评估g与Hg之间的一致性,作为子空间集中度的代理。
- 在训练步骤中评估子空间重叠以确定顶部子空间的保持情况。
- 给出一个可求解的示例模型(高斯混合的softmax回归)来说明观察到的动力学。
- 使用Lanczos方法和Hessian-向量乘积在不构造完整Hessian的情况下估计顶部特征向量。
实验结果
研究问题
- RQ1训练过程中梯度是否集中在顶部Hessian子空间?
- RQ2在跨架构和数据集的长时间训练中,顶部Hessian子空间是否大致保持?
- RQ3梯度在顶部子空间上的投影与优化进展之间的关系如何?
- RQ4一个简单的示例模型是否能复现观察到的动力学并提供解析洞见?
主要发现
- 在跨架构和数据集的情况下,梯度很快集中在顶部Hessian子空间(维度为k,即类别数)。
- 顶部子空间在较长的训练期间大致保持,而bulk子空间变化得更快。
- 在经验测量中,梯度与其Hessian投影分量之间的重叠度很高(接近1)。
- 一个简单的示例模型能够重现这一现象:梯度位于顶层子空间,且Hessian有两个较大的特征值,其余接近于0。
- 包含小方差或偏置会扰动谱,但对主要的顶子空间集中性影响较小。
- 观察到的动力学表明梯度下降在高维、非凸损失景观中仍然有效地在一个凸的、低维子空间内进行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。