Skip to main content
QUICK REVIEW

[论文解读] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018
Stochastic Gradient Optimization Techniques参考文献 14被引用 110
一句话总结

训练过程中的梯度集中在霍essian子空间的顶部(维数等于类别数),这个子空间在很大程度上保持近似不变,表明梯度下降实际上在一个很小的、在演化中的子空间内进行。

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

研究动机与目标

  • 研究在大型、过参数化模型中,SGD期间梯度和Hessian谱的行为。
  • 表征Hessian的子空间(顶部与整体)以及梯度在它们上的投影。
  • 检查梯度动力学是否被限制在一个小的、缓慢变化的子空间及其对优化的影响。
  • 在不同架构和数据集上提供经验证据,并给出一个示意模型来说明机制。

提出的方法

  • 将Hessian分解为一个由其最大的k个特征向量张成的顶部子空间(k=类别数)和一个bulk子空间。
  • 测量梯度在顶部子空间上的投影,并在整个训练过程中量化分数f_top = ||g_top||^2 / ||g||^2。
  • 计算Hessian-梯度重叠来评估g与Hg之间的一致性,作为子空间集中度的代理。
  • 在训练步骤中评估子空间重叠以确定顶部子空间的保持情况。
  • 给出一个可求解的示例模型(高斯混合的softmax回归)来说明观察到的动力学。
  • 使用Lanczos方法和Hessian-向量乘积在不构造完整Hessian的情况下估计顶部特征向量。

实验结果

研究问题

  • RQ1训练过程中梯度是否集中在顶部Hessian子空间?
  • RQ2在跨架构和数据集的长时间训练中,顶部Hessian子空间是否大致保持?
  • RQ3梯度在顶部子空间上的投影与优化进展之间的关系如何?
  • RQ4一个简单的示例模型是否能复现观察到的动力学并提供解析洞见?

主要发现

  • 在跨架构和数据集的情况下,梯度很快集中在顶部Hessian子空间(维度为k,即类别数)。
  • 顶部子空间在较长的训练期间大致保持,而bulk子空间变化得更快。
  • 在经验测量中,梯度与其Hessian投影分量之间的重叠度很高(接近1)。
  • 一个简单的示例模型能够重现这一现象:梯度位于顶层子空间,且Hessian有两个较大的特征值,其余接近于0。
  • 包含小方差或偏置会扰动谱,但对主要的顶子空间集中性影响较小。
  • 观察到的动力学表明梯度下降在高维、非凸损失景观中仍然有效地在一个凸的、低维子空间内进行。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。