Skip to main content
QUICK REVIEW

[论文解读] On the Spectral Bias of Neural Networks

Nasim Rahaman, Aristide Baratin|arXiv (Cornell University)|Jun 22, 2018
Neural Networks and Applications被引用 164
一句话总结

本论文显示深度 ReLU 网络呈现谱偏差,先学习低频(平滑)分量,并分析数据流形几何如何影响高频学习。

ABSTRACT

Neural networks are known to be a class of highly expressive functions able to fit even random input-output mappings with $100\%$ accuracy. In this work, we present properties of neural networks that complement this aspect of expressivity. By using tools from Fourier analysis, we show that deep ReLU networks are biased towards low frequency functions, meaning that they cannot have local fluctuations without affecting their global behavior. Intuitively, this property is in line with the observation that over-parameterized networks find simple patterns that generalize across data samples. We also investigate how the shape of the data manifold affects expressivity by showing evidence that learning high frequencies gets \emph{easier} with increasing manifold complexity, and present a theoretical understanding of this behavior. Finally, we study the robustness of the frequency components with respect to parameter perturbation, to develop the intuition that the parameters must be finely tuned to express high frequency functions.

研究动机与目标

  • 动机并用傅里叶分析形式化神经网络的谱偏差。
  • 表征 ReLU 网络的傅里叶谱及其衰减性质。
  • 证明较低频率学习更快且对参数扰动更鲁棒。
  • 研究数据流形几何如何影响高频分量的可学习性。
  • 提供关于训练动力学和流形效应的经验和理论洞见。

提出的方法

  • 将 ReLU 网络表示为连续分段线性(CPWL)函数,并将 f(x) 表示为对线性区域的求和(Eq. 2)。
  • 计算 ReLU 网络的傅里叶变换并推导其形式为有理函数(Eq. 6)。
  • 证明在大多数方向上谱以 k^{-(d+1)} 衰减,而某些方向的衰减慢至 k^{-2}。
  • 将谱的界限与 Lipschitz 常数及网络参数关联起来(Eq. 7)。
  • 进行合成实验以观测谱偏差及对参数扰动的鲁棒性(实验 1 和 2)。
  • 通过频率-噪声实验(实验 3)和广义频率投影(实验 4)研究 MNIST 上的真实数据行为。
  • 考察数据流形几何对高频学习能力的影响(第4节及实验 5-6)。

实验结果

研究问题

  • RQ1深度 ReLU 网络是否对学习低频分量存在系统性偏差?
  • RQ2训练后网络的傅里叶谱如何与其结构和参数相关?
  • RQ3数据流形的形状是否影响学习高频分量的难易程度?
  • RQ4低频与高频分量对网络参数扰动的鲁棒性有多大差异?
  • RQ5将数据嵌入到复杂流形上在实践中如何影响基于频率的可学习性?

主要发现

  • 网络在训练过程中优先学习较低频率,然后才是较高频率。
  • 较低频率分量对网络参数的随机扰动比高频分量更鲁棒。
  • ReLU 网络的傅里叶谱呈各向异性衰减,在大多数方向为 k^{-(d+1)},在与区域面正交的方向衰减慢至 k^{-2}。
  • 当数据位于更复杂、低维的流形上时,高频分量的学习可能变得更容易。
  • 流形嵌入可使输入空间中的大频率被较小的网络频率表示,具体取决于流形几何。
  • 在 MNIST 上的经验结果显示与合成实验一致的频率相关效应。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。