[论文解读] A Modern Take on the Bias-Variance Tradeoff in Neural Networks
作者测量现代神经网络中的偏差和方差,并展示随着宽度增加,两者都可能降低,这挑战了经典的偏差-方差权衡。他们还将方差分解为抽样和优化两个组成部分,并提供支持性的理论。
The bias-variance tradeoff tells us that as model complexity increases, bias falls and variances increases, leading to a U-shaped test error curve. However, recent empirical results with over-parameterized neural networks are marked by a striking absence of the classic U-shaped test error curve: test error keeps decreasing in wider networks. This suggests that there might not be a bias-variance tradeoff in neural networks with respect to network width, unlike was originally claimed by, e.g., Geman et al. (1992). Motivated by the shaky evidence used to support this claim in neural networks, we measure bias and variance in the modern setting. We find that both bias and variance can decrease as the number of parameters grows. To better understand this, we introduce a new decomposition of the variance to disentangle the effects of optimization and data sampling. We also provide theoretical analysis in a simplified setting that is consistent with our empirical findings.
研究动机与目标
- 提出传统的偏差-方差视角及其在现代神经网络中的适用性。
- 在多样化数据集上,随网络宽度增加经验性地测量预测偏差和方差。
- 将总方差分解为抽样和优化两个组成部分,以区分它们的影响。
- 提供与简化设定中的经验观察一致的理论分析。
提出的方法
- 为平方损失预测定义偏差-方差分解,并将其应用于分类情境。
- 引入使用全方差定理的方差分解,以将抽样方差与优化方差分离。
- 在 MNIST、CIFAR-10、SVHN、small MNIST,以及一个正弦回归任务上进行不同宽度的广泛实验。
- 使用自助法重复样本来估计偏差和方差项,并对外部/内部期望使用 10/10 种随机种子,报告 99% 置信区间。
- 证明优化导致的方差随宽度增加而减少,而抽样导致的方差趋于稳定。
- 在过参量化线性模型及相关设定中提供理论见解,以支持经验发现。
实验结果
研究问题
- RQ1在实际情境中,预测偏差是否会随神经网络宽度增加而降低?
- RQ2随着宽度增加,预测方差的表现如何:是增加、减少还是趋于稳定?
- RQ3我们能否将方差分解为由优化驱动的成分和由抽样驱动的成分?它们随宽度的变化表现如何?
- RQ4线性或简化模型是否能提供解释宽网络中观察到的偏差-方差行为的洞见?
主要发现
- 在多个数据集上,偏差和方差都可能随着网络宽度的增加而下降。
- 优化导致的方差随宽度增加而下降,在过参数化状态下甚至可以变得可以忽略。
- 抽样导致的方差增长缓慢,且在充分过参化后趋于稳定。
- 全方差定理使我们能够将方差分解为由优化驱动的项和由抽样驱动的项,从而澄清它们的不同作用。
- 经验结果辅以简化设定中的理论分析,与观察结果一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。