[论文解读] Explicitizing an Implicit Bias of the Frequency Principle in Two-layer Neural Networks
本文提出了一种线性化频率原则(LFP)动力学模型,明确捕捉了深度神经网络在训练过程中优先学习低频分量的隐式偏差。通过推导一个等价的约束优化问题,该问题通过惩罚高频分量来最小化FP-范数,该模型提供了与网络宽度无关的先验泛化误差界,其缩放为$1/\sqrt{M}$,揭示了目标函数的更高FP-范数会增加泛化误差。
It remains a puzzle that why deep neural networks (DNNs), with more parameters than samples, often generalize well. An attempt of understanding this puzzle is to discover implicit biases underlying the training process of DNNs, such as the Frequency Principle (F-Principle), i.e., DNNs often fit target functions from low to high frequencies. Inspired by the F-Principle, we propose an effective model of linear F-Principle (LFP) dynamics which accurately predicts the learning results of two-layer ReLU neural networks (NNs) of large widths. This LFP dynamics is rationalized by a linearized mean field residual dynamics of NNs. Importantly, the long-time limit solution of this LFP dynamics is equivalent to the solution of a constrained optimization problem explicitly minimizing an FP-norm, in which higher frequencies of feasible solutions are more heavily penalized. Using this optimization formulation, an a priori estimate of the generalization error bound is provided, revealing that a higher FP-norm of the target function increases the generalization error. Overall, by explicitizing the implicit bias of the F-Principle as an explicit penalty for two-layer NNs, our work makes a step towards a quantitative understanding of the learning and generalization of general DNNs.
研究动机与目标
- 解决一个谜题:为何过参数化的深度神经网络(DNNs)在参数数量超过训练样本数量的情况下仍能良好泛化。
- 通过一个可处理的数学框架,显式建模深度神经网络在训练过程中优先学习低频到高频分量的隐式频率原则(F-原理)偏差。
- 为两层ReLU网络推导一个显式依赖于目标函数FP-范数的泛化误差界,且无需依赖于已学习模型的知识。
- 建立F-原理与一个惩罚解空间中高频分量的约束优化问题之间的联系。
提出的方法
- 提出一种线性化频率原则(LFP)动力学模型,该模型在梯度流中为不同频率分量分配不同的学习优先级。
- 利用两层ReLU网络的线性化平均场残差动力学来合理化LFP模型,该模型在过参数化区域有效。
- 证明LFP动力学的长时间解等价于最小化一个频率原则范数(FP-范数),该范数在解空间中惩罚高频分量。
- 将学习过程表述为一个显式最小化FP-范数的约束优化问题,从而将隐式偏差显式化。
- 使用Rademacher复杂度估计LFP模型的泛化误差,从而导出一个先验界。
- 通过数值求解带有频率依赖正则化项的岭回归问题来近似LFP解,参数在$d=1$和$d=2$时进行了调优。
实验结果
研究问题
- RQ1如何显式建模在训练两层ReLU网络时观察到的隐式频率偏差,以准确预测最终学习到的函数?
- RQ2F-原理动力学与一个具有显式正则化的明确定义的优化问题之间存在何种数学等价性?
- RQ3目标函数的FP-范数如何影响两层ReLU网络的泛化误差?
- RQ4能否推导出一个先验泛化误差界,其仅依赖于目标函数的性质和训练样本数量,而不依赖于网络宽度?
- RQ5线性化平均场残差动力学在过参数化区域中对LFP模型有效性的合理性起何作用?
主要发现
- LFP动力学的长时间极限解在数学上等价于求解一个最小化FP-范数的约束优化问题,该范数在解空间中惩罚高频分量。
- LFP模型的泛化误差界为$\frac{2}{\sqrt{M}}\left\| f' \right\|_{\gamma}\left\| \gamma \right\|_{\ell^{2}} + 4\left\| f' \right\|_{\gamma}\left\| \gamma \right\|_{\ell^{2}}\sqrt{\frac{2\log(4/\delta)}{M}}$,明确显示出对训练样本数量$M$和目标函数FP-范数的依赖。
- 泛化误差界按$1/\sqrt{M}$缩放,且与网络参数数量无关,表明泛化性能由目标函数的频率内容决定。
- 目标函数的FP-范数是泛化误差的关键决定因素:FP-范数越高,泛化误差越大。
- 数值实验表明,LFP模型能准确预测宽两层ReLU网络的输出,验证了其预测能力。
- 由于在格点$\mathbb{L}^d$上计算频率正则化项时存在维度灾难,该模型未扩展到$d > 2$。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。