Skip to main content
QUICK REVIEW

[论文解读] A Note on Lazy Training in Supervised Differentiable Programming

Lénaïc Chizat, Francis Bach|arXiv (Cornell University)|Dec 5, 2018
Machine Learning and ELM被引用 87
一句话总结

本文表明,在过参数化的神经网络中,懒惰训练(lazy training)之所以有效,是因为在初始化时采用特定的缩放方式,使模型在初始化附近线性化,而非过参数化本身。作者表明这种行为源于权重初始化的缩放,而非模型规模,并认为它不太可能解释深度学习在高维任务中的成功。

ABSTRACT

In a series of recent theoretical works, it has been shown that strongly over-parameterized neural networks trained with gradient-based methods could converge linearly to zero loss, with their parameters hardly varying. In this note, our goal is to exhibit the simple structure that is behind these results. In a simplified setting, we prove that lazy training essentially solves a kernel regression. We also show that this behavior is not so much due to over-parameterization than to a choice of scaling, often implicit, that allows to linearize the model around its initialization. These theoretical results complemented with simple numerical experiments make it seem unlikely that lazy training is behind the many successes of neural networks in high dimensional tasks.

研究动机与目标

  • 识别梯度训练中过参数化神经网络线性收敛的潜在结构原因。
  • 澄清过参数化还是权重缩放是实现懒惰训练行为的关键因素。
  • 在简化设置中证明懒惰训练等价于核回归。
  • 挑战懒惰训练可解释高维任务中深度学习成功这一假设。

提出的方法

  • 分析采用梯度优化的简化神经网络设置。
  • 在权重初始化中引入一个使模型在其初始值附近线性化的缩放因子。
  • 证明训练动态收敛至与核岭回归等价的解。
  • 通过理论分析表明,线性化源于缩放,而非过参数化。
  • 进行最少数量的数值实验以验证理论发现。
  • 在不同缩放配置下比较模型行为,以隔离初始化缩放的影响。

实验结果

研究问题

  • RQ1梯度训练中过参数化神经网络线性收敛的结构性原因是什么?
  • RQ2过参数化还是权重缩放是懒惰训练行为的主要驱动力?
  • RQ3在简化设置中,懒惰训练在多大程度上可简化为核回归?
  • RQ4懒惰训练与核方法之间的等价性能否被形式化确立?
  • RQ5为何懒惰训练不太可能解释神经网络在高维任务中的成功?

主要发现

  • 过参数化网络中的懒惰训练本质上源于对初始权重的缩放,使模型在初始化附近线性化。
  • 在此设置中,训练动态在数学上等价于使用神经正切核(Neural Tangent Kernel)的核岭回归。
  • 损失收敛至零的过程是线性的,这并非由于模型的过参数化,而是由于初始化缩放的选择。
  • 数值实验确认,在指定缩放下,即使过参数化程度极低,线性化行为依然成立。
  • 与核回归的等价性表明,模型性能受核方法限制,从而在高维任务中泛化能力受限。
  • 结果表明,懒惰训练不太可能是复杂高维学习问题中深度神经网络经验成功背后的根本机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。