[论文解读] Rethinking Bias-Variance Trade-off for Generalization of Neural Networks
本文显示,在神经网络中,偏差随宽度减小,而方差呈单峰态(先增加后减小),从而产生包括单调、双降和单峰等多种风险曲线,并得到一个两层线性模型的理论支持。
The classical bias-variance trade-off predicts that bias decreases and variance increase with model complexity, leading to a U-shaped risk curve. Recent work calls this into question for neural networks and other over-parameterized models, for which it is often observed that larger models generalize better. We provide a simple explanation for this by measuring the bias and variance of neural networks: while the bias is monotonically decreasing as in the classical theory, the variance is unimodal or bell-shaped: it increases then decreases with the width of the network. We vary the network architecture, loss function, and choice of dataset and confirm that variance unimodality occurs robustly for all models we considered. The risk curve is the sum of the bias and variance curves and displays different qualitative shapes depending on the relative scale of bias and variance, with the double descent curve observed in recent literature as a special case. We corroborate these empirical results with a theoretical analysis of two-layer linear networks with random first layer. Finally, evaluation on out-of-distribution data shows that most of the drop in accuracy comes from increased bias while variance increases by a relatively small amount. Moreover, we find that deeper models decrease bias and increase variance for both in-distribution and out-of-distribution data.
研究动机与目标
- 解释为什么更大的神经网络在经典的偏差-方差期望下往往具有更好的泛化能力。
- 以实证方式刻画偏差和方差如何依赖于网络宽度、架构、损失函数和数据集。
- 提供理论分析,在简化模型中验证方差的单峰性。
- 考察分布外表现和模型深度对偏差/方差的影响。
- 将发现与现代机器学习中观察到的双降现象联系起来。
提出的方法
- 使用广义Bregman散度定义平方损失和交叉熵损失的随机设计偏差-方差分解。
- 通过在不同数据分割上训练多种模型并用无偏估计量估计方差,来实证测量偏差和方差。
- 改变网络宽度、架构、损失函数和数据集,以观察偏差单调性和方差单峰性。
- 对一个第一层随机的两层线性网络进行理论分析,在渐近情形下显示偏差单调性和方差单峰性。
- 分析深度对偏差和方差的影响,并使用CIFAR10-C研究分布外性能。
实验结果
研究问题
- RQ1在神经网络中,随着网络宽度增加,偏差的行为如何?
- RQ2在不同架构和损失下,方差随网络宽度的变化如何?
- RQ3考虑偏差和方差的相对规模时,整体风险曲线会呈现出怎样的形状?
- RQ4更深的网络是否会改变在分布内和分布外数据上的偏差-方差动态?
- RQ5简化的两层线性模型是否能再现观察到的偏差-方差行为并解释峰值位置?
主要发现
- 偏差随宽度单调下降,与经典理论一致。
- 方差呈单峰形状(钟型):在不同架构和数据集上,宽度增大时先增大后减小。
- 风险曲线可以是单调的、双降的,或单峰的,取决于偏差和方差的相对大小。
- 更深的模型往往降低偏差同时增加方差,暗示深度通过减少偏差来提升泛化。
- 在分布外数据上,大多数精度下降来自偏差增加,方差贡献较小。
- 一个第一层随机的两层线性模型展现出相同的偏差单调和方差单峰性,支持观察到的现象。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。