[论文解读] Understanding training and generalization in deep learning by Fourier analysis
本论文为深度神经网络训练建立一个傅里叶分析框架,显示基于梯度的方法优先关注低频分量,小的初始化有利于泛化,同时保持拟合任意函数的能力。
Background: It is still an open research area to theoretically understand why Deep Neural Networks (DNNs)---equipped with many more parameters than training data and trained by (stochastic) gradient-based methods---often achieve remarkably low generalization error. Contribution: We study DNN training by Fourier analysis. Our theoretical framework explains: i) DNN with (stochastic) gradient-based methods often endows low-frequency components of the target function with a higher priority during the training; ii) Small initialization leads to good generalization ability of DNN while preserving the DNN's ability to fit any function. These results are further confirmed by experiments of DNNs fitting the following datasets, that is, natural images, one-dimensional functions and MNIST dataset.
研究动机与目标
- 解释为什么用基于梯度的方法训练的 DNN 在参数数量庞大时仍能很好泛化。
- 表明梯度动力学如何偏爱目标函数的低频分量。
- 演示初始化尺度如何影响拟合高频分量与泛化之间的权衡。
- 将该框架定性地扩展到一般 DNN,并通过自然图像、1-D 函数和 MNIST 的实验进行验证。
提出的方法
- 以 tanh 激活和单隐藏层为例,在傅里叶域为 DNN 构建理论框架。
- 推导 DNN 输出与损失在频域中的形式,并获得相对于参数的梯度。
- 表明每个频率分量的梯度幅值分解为一个随频率衰减的项与误差幅值。
- 给出定理,指示较低频率获得训练优先,以及保持低频收敛的条件。
- 论证将框架定性扩展到一般 DNN 的可行性,并讨论激活谱的作用。
- 通过自然图像、1-D 函数和 MNIST 的实验来实证验证理论,并比较小初始化与大初始化。
实验结果
研究问题
- RQ1梯度基训练动态是否倾向于降低目标函数低频分量的误差?
- RQ2初始化尺度如何影响学习到的函数的频率分量及泛化性能?
- RQ3傅里叶分析框架能否在定性上扩展到除所示单隐藏层模型之外的一般 DNN 架构?
- RQ4有哪些实证证据支持在自然图像和 MNIST 等现实数据集上的频率优先行为?
主要发现
- 在梯度基优化下,目标函数的低频分量被赋予更高的训练优先级。
- 小初始化导致较小的高频幅值和更好的泛化,同时仍然允许网络拟合任意函数。
- 频域梯度中的衰减项与激活函数和权重尺度相关,指引频率学习顺序。
- 对于大网络,谱范数在训练中变化不大,但该框架仍能定性地解释观测到的训练动态。
- 自然图像和 MNIST 的实验显示出频率优先化及初始化对泛化的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。