Skip to main content
QUICK REVIEW

[论文解读] SGD on Neural Networks Learns Functions of Increasing Complexity

Preetum Nakkiran, Gal Kaplun|arXiv (Cornell University)|May 28, 2019
Neural Networks and Applications参考文献 36被引用 48
一句话总结

本文在实验和理论上表明,SGD 首先学习一个线性类函数来解释初始增益,然后在保持初始线性分量的同时逐步学习更复杂的函数,从而有助于泛化。

ABSTRACT

We perform an experimental study of the dynamics of Stochastic Gradient Descent (SGD) in learning deep neural networks for several real and synthetic classification tasks. We show that in the initial epochs, almost all of the performance improvement of the classifier obtained by SGD can be explained by a linear classifier. More generally, we give evidence for the hypothesis that, as iterations progress, SGD learns functions of increasing complexity. This hypothesis can be helpful in explaining why SGD-learned classifiers tend to generalize well even in the over-parameterized regime. We also show that the linear classifier learned in the initial stages is "retained" throughout the execution even if training is continued to the point of zero training error, and complement this with a theoretical result in a simplified model. Key to our work is a new measure of how well one classifier explains the performance of another, based on conditional mutual information.

研究动机与目标

  • 证明 SG D在神经网络上的早期改进在很大程度上可以用学习线性分类器来解释。
  • 提供证据表明在训练继续时,SGD 会保留来自初始简单分类器的信息。
  • 引入基于互信息的度量,用以量化简单分类器解释更复杂分类器的程度。

提出的方法

  • 定义基于互信息的性能相关性 mu_Y(F;L)=I(F;Y)-I(F;Y|L),以量化 F 的性能有多大程度被 L 解释。
  • 在真实和合成二分类任务中,随训练时间 t 实验性评估 mu_Y(F_t;L)。
  • 将早期阶段的学习与最佳线性分类器进行比较,并在训练进行时分析阶段转变。
  • 使用卷积结构和分阶段的简单模型,将分析扩展到比线性分类器更高的复杂性。
  • 给出一个理论结果(定理 1),在简化数据分布下,过参数化线性 SGD 保留初始简单分类器。

实验结果

研究问题

  • RQ1SGD 在神经网络上的初始表现是否主要来自简单(线性)分类器?
  • RQ2在早期阶段之后,SGD 是否会保留初始简单分类器的影响?
  • RQ3能否将 SGD 的进展描述为在保持简单成分的同时学习越来越复杂的函数?
  • RQ4互信息如何量化简单分类器对更复杂的 SGD 模型的解释能力?
  • RQ5结果是否能扩展到现实场景中的非线性结构,而不仅仅是线性模型?

主要发现

  • 在自然设置下,SGD 的初始增益在很大程度上归因于与数据相关的线性分类器。
  • 在初始阶段之后,SGD 仍然与简单线性模型保持相关,即使训练持续以实现零训练误差。
  • 基于互信息的度量表明,初始线性成分可以解释早期表现的很大一部分,胜过随机基线。
  • 证据表明 SGD 在保持简单成分的同时学习越来越复杂的函数,超越线性分类器的范围。
  • 本文给出一个简单的理论设置(定理 1),在从简单分类器出发的情况下,尽管对训练集过拟合,仍可获得最优的总体准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。