QUICK REVIEW

[论文解读] Frequency Bias in Neural Networks for Input of Non-Uniform Density

Ronen Basri, Meirav Galun|arXiv (Cornell University)|Mar 10, 2020

Stochastic Gradient Optimization Techniques参考文献 24被引用 29

一句话总结

本文利用神经正切核（NTK）框架，研究了在训练数据具有非均匀密度时，过参数化神经网络中的频率偏差问题。研究结果表明，频率为 $\kappa$ 的谐波函数的收敛时间与 $O(\kappa^d / p^*)$ 成正比，其中 $p^*$ 为最小局部数据密度，表明高频分量在数据密集区域学习得更快，将已知的频率偏差结果从均匀数据分布扩展到了更真实的非均匀分布情形。

ABSTRACT

Recent works have partly attributed the generalization ability of over-parameterized neural networks to frequency bias -- networks trained with gradient descent on data drawn from a uniform distribution find a low frequency fit before high frequency ones. As realistic training sets are not drawn from a uniform distribution, we here use the Neural Tangent Kernel (NTK) model to explore the effect of variable density on training dynamics. Our results, which combine analytic and empirical observations, show that when learning a pure harmonic function of frequency $κ$, convergence at a point $\x \in \Sphere^{d-1}$ occurs in time $O(κ^d/p(\x))$ where $p(\x)$ denotes the local density at $\x$. Specifically, for data in $\Sphere^1$ we analytically derive the eigenfunctions of the kernel associated with the NTK for two-layer networks. We further prove convergence results for deep, fully connected networks with respect to the spectral decomposition of the NTK. Our empirical study highlights similarities and differences between deep and shallow networks in this model.

研究动机与目标

理解过参数化神经网络中的频率偏差如何受非均匀数据密度的影响。
将以往仅限于均匀数据分布的频率偏差理论扩展至更现实的非均匀数据分布。
利用 NTK 框架分析在非均匀输入密度下浅层（两层）和深层全连接网络的收敛动力学。
量化学习速度对局部数据密度和目标函数频率的依赖关系。

提出的方法

使用神经正切核（NTK）模型分析在非均匀数据密度下过参数化网络的训练动力学。
推导出在单位圆上具有分段常数密度的两层 ReLU 网络的 NTK 特征函数与特征值的闭式表达式。
证明在 $d$ 维输入空间中，纯谐波函数频率为 $\kappa$ 时的收敛时间为 $O(\kappa^d / p^*)$，其中 $p^*$ 为最小局部密度。
通过证明目标函数在 NTK 特征向量上的投影决定了收敛速度，将理论分析扩展至深层全连接网络。
在 $\mathbb{S}^{1}$ 和 $\mathbb{S}^{2}$ 上通过具有分段常数密度和不同频率目标的合成数据，对结果进行实验验证。
比较浅层与深层网络的特征函数及特征值衰减情况，评估在非均匀性下频率偏差的异同。

实验结果

研究问题

RQ1非均匀数据密度如何影响过参数化神经网络中观察到的频率偏差？
RQ2在不同局部数据密度区域，学习频率为 $\kappa$ 的谐波函数的理论收敛时间是多少？
RQ3当数据密度非均匀时，深层全连接网络是否表现出与浅层网络相似的频率偏差行为？
RQ4非均匀数据的 NTK 特征函数是否在密集区域表现出更高局部频率？
RQ5在非均匀数据分布下，深层网络的 NTK 谱分解与浅层网络相比有何异同？

主要发现

学习频率为 $\kappa$ 的谐波函数的收敛时间与 $O(\kappa^d / p^*)$ 成正比，其中 $p^*$ 为最小局部数据密度，表明高频分量在数据密集区域学习得更快。
对于 $\mathbb{S}^1$ 上的两层 ReLU 网络，NTK 特征函数具有分段常数的局部频率，且在数据密度较高的区域频率更高。
实验结果证实，深层全连接网络也表现出类似的频率偏差，且在非均匀密度下收敛时间与 $O(\kappa^d / p^*)$ 成正比。
NTK 特征值随频率衰减，支持深层网络中即使在非均匀数据分布下也存在频率偏差。
在非均匀密度下，深层网络 NTK 特征函数在经验上与浅层网络无法区分，表明其具有共享的归纳偏置。
对于均匀分布的数据，NTK 特征函数为球谐函数，且频率 $\kappa$ 的收敛时间为 $O(\kappa^d)$，与先前结果一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。