QUICK REVIEW

[论文解读] Benign Overfitting in Two-layer Convolutional Neural Networks

Yuan Cao, Zixiang Chen|arXiv (Cornell University)|Feb 14, 2022

Model Reduction and Neural Networks被引用 20

一句话总结

这篇论文分析在用梯度下降训练的两层卷积神经网络中，良性过拟合与有害过拟合，建立由信噪比驱动的尖锐相变。

ABSTRACT

Modern neural networks often have great expressive power and can be trained to overfit the training data, while still achieving a good test performance. This phenomenon is referred to as "benign overfitting". Recently, there emerges a line of works studying "benign overfitting" from the theoretical perspective. However, they are limited to linear models or kernel/random feature models, and there is still a lack of theoretical understanding about when and how benign overfitting occurs in neural networks. In this paper, we study the benign overfitting phenomenon in training a two-layer convolutional neural network (CNN). We show that when the signal-to-noise ratio satisfies a certain condition, a two-layer CNN trained by gradient descent can achieve arbitrarily small training and test loss. On the other hand, when this condition does not hold, overfitting becomes harmful and the obtained CNN can only achieve a constant level test loss. These together demonstrate a sharp phase transition between benign overfitting and harmful overfitting, driven by the signal-to-noise ratio. To the best of our knowledge, this is the first work that precisely characterizes the conditions under which benign overfitting can occur in training convolutional neural networks.

研究动机与目标

激发理解为何超参数化网络在能够拟合数据的同时在实际中仍能泛化（良性过拟合）。
描述在何种条件下，即使存在过拟合，二维层CNN仍能实现较小的训练损失和测试损失。
提供一种非NTK、基于信号-噪声分解的卷积神经网络学习的算法分析。
提供积极（良性）和消极（有害）结果以界定相变。
引入用于分析神经网络非凸训练动力学的方法工具。

提出的方法

考虑一个两层的卷积神经网络，第二层参数固定为 (+1) 和 (-1)，并且使用多项式 ReLU 激活 sigma(z) = max{0,z}^q，q>2。
将滤波器分解为初始化、信号向量 mu 和噪声向量 xi_i 的信号-噪声分解。
将训练框架为系数 gamma、rho_bar 和 rho_underline 的离散动力学系统，跟踪信号学习和噪声记忆。
证明两阶段分析：阶段1 在损失导数保持常数时显示信号学习；阶段2 分析收敛到小的训练损失和小的测试损失。
推导总体损失界，显示当 n*SNR^q = Ω(1) 时测试损失很小；以及另一个互补结果，当 n^{-1}*SNR^{-q} = Ω(1) 时指示测试损失为常量量级。
与NTK结果相比，该分析不处于NTK regime，并允许 W^(t) 在多项式于 m 的量级上移动超出初始化。

实验结果

研究问题

RQ1在何种数据与模型条件下，采用梯度下降训练的两层CNN能够实现良性过拟合？
RQ2信号噪声比如何与样本量和网络宽度相互作用，从而决定学习信号与记忆噪声？
RQ3我们能否在超越核/NTK regimes的情况下表征良性与有害过拟合之间的相变？
RQ4训练过程中信号-噪声分解的动力学是什么，它们如何影响训练损失和测试损失？

主要发现

存在一个由 SNR 情况驱动的尖锐相变，在良性过拟合（总体损失小）与有害过拟合（总体损失常量）之间。
如果 n * SNR^q = Ω(1)，CNN 学习信号并实现训练损失和测试损失都很小（到 ε 为止）。
如果 n^{-1} * SNR^{-q} = Ω(1)，CNN 会记忆噪声，尽管训练损失很小，测试损失保持常量量级。
该分析在良性状态下提供的总体风险界可以在 n 上呈指数级减小，优于典型的高维界。
结果超出神经切线核 regime 的范围，依赖于新颖的信号-噪声分解和两阶段训练分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。