[论文解读] On the Spectral Bias of Deep Neural Networks
本文通过使用傅里叶分析分析其谱偏差,解释了为何过参数化的深度神经网络(DNN)尽管具备记忆随机数据的能力,仍能实现良好的泛化性能。研究发现DNN本质上倾向于平滑函数,其频率分量的衰减速度至少为O(k⁻²),并证明高频函数占据的参数空间体积更小,从而解释了泛化能力以及对对抗样本的鲁棒性。
It is well known that over-parametrized deep neural networks (DNNs) are an overly expressive class of functions that can memorize even random data with $100\%$ training accuracy. This raises the question why they do not easily overfit real data. To answer this question, we study deep networks using Fourier analysis. We show that deep networks with finite weights (or trained for finite number of steps) are inherently biased towards representing smooth functions over the input space. Specifically, the magnitude of a particular frequency component ($k$) of deep ReLU network function decays at least as fast as $\mathcal{O}(k^{-2})$, with width and depth helping polynomially and exponentially (respectively) in modeling higher frequencies. This shows for instance why DNNs cannot perfectly extit{memorize} peaky delta-like functions. We also show that DNNs can exploit the geometry of low dimensional data manifolds to approximate complex functions that exist along the manifold with simple functions when seen with respect to the input space. As a consequence, we find that all samples (including adversarial samples) classified by a network to belong to a certain class are connected by a path such that the prediction of the network along that path does not change. Finally we find that DNN parameters corresponding to functions with higher frequency components occupy a smaller volume in the parameter.
研究动机与目标
- 理解为何过参数化的DNN尽管容量极高,却不会对真实数据过拟合。
- 研究DNN在不同频率上表示函数的归纳偏差。
- 分析低维数据流形的几何结构如何影响DNN的泛化性能。
- 通过预测的路径连通性解释DNN对对抗样本的鲁棒性。
- 量化高频函数所占据的参数空间体积。
提出的方法
- 分析深度ReLU网络的傅里叶谱,研究频率分量的衰减特性。
- 推导理论边界,表明频率分量k的幅值至少以O(k⁻²)的速度衰减。
- 将宽度和深度分别作为因素,分别以多项式和指数方式帮助建模更高频率。
- 研究数据流形几何对函数逼近的影响,表明沿流形的复杂函数在输入空间中表现得更简单。
- 证明所有被分类为同一类的样本可通过一条路径连接,且网络预测在该路径上保持不变。
- 测量不同频率分量函数所占据的参数空间体积,表明高频函数占据的体积更小。
实验结果
研究问题
- RQ1为何过参数化的DNN即使能记忆随机标签,也不会对真实数据过拟合?
- RQ2DNN函数的频率谱如何表现,其衰减速率由什么决定?
- RQ3低维数据流形的几何结构如何影响DNN的函数逼近?
- RQ4为何对抗样本不更具破坏性,DNN的何种结构性特征解释了这一点?
- RQ5参数空间中被高频函数占据的比例是多少?
主要发现
- 在训练好的DNN中,频率分量k的幅值至少以O(k⁻²)的速度衰减,表明其对低频、平滑函数存在强烈偏好。
- 网络宽度以多项式方式帮助建模更高频率,而深度以指数方式提升高频表示能力,从而实现更优的高频建模。
- 由于这种谱偏差,DNN无法完美记忆脉冲状、类似狄拉克函数的函数。
- 所有被分类为同一类的输入可通过一条路径连接,且网络预测在该路径上保持不变,解释了对小扰动的鲁棒性。
- 高频分量函数在参数空间中占据的体积显著更小,提示了泛化性能的几何成因。
- 谱偏差源于网络架构与训练过程,而不仅限于优化算法,是有限权重DNN的固有特性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。