[论文解读] Memorization in Overparameterized Autoencoders
该论文表明,过参数化的自编码器表现出强烈的记忆偏差,即训练后的网络会将输入投影到训练样本上,而非泛化到更广泛的数据流形。使用梯度下降时,单层自编码器会投影到训练数据的非线性张量上,而深层自编码器则在训练点处诱导局部收缩;在卷积架构中,深度既是实现该行为的必要条件也是充分条件,揭示了一种依赖于数据的自正则化机制。
The ability of deep neural networks to generalize well in the overparameterized regime has become a subject of significant research interest. We show that overparameterized autoencoders exhibit memorization, a form of inductive bias that constrains the functions learned through the optimization process to concentrate around the training examples, although the network could in principle represent a much larger function class. In particular, we prove that single-layer fully-connected autoencoders project data onto the (nonlinear) span of the training examples. In addition, we show that deep fully-connected autoencoders learn a map that is locally contractive at the training examples, and hence iterating the autoencoder results in convergence to the training examples. Finally, we prove that depth is necessary and provide empirical evidence that it is also sufficient for memorization in convolutional autoencoders. Understanding this inductive bias may shed light on the generalization properties of overparametrized deep neural networks that are currently unexplained by classical statistical theory.
研究动机与目标
- 理解过参数化自编码器的归纳偏差,这些自编码器尽管插值了训练数据,仍能实现良好泛化。
- 研究为何在过参数化网络中,梯度下降会收敛到集中于训练样本而非任意插值函数的解。
- 确立记忆化——定义为向训练数据收缩——是深层自编码器的稳健特性,即使重建误差接近零亦成立。
- 证明在卷积自编码器中,深度既是实现记忆化的必要条件也是充分条件。
- 阐明权重初始化的作用,表明零均值初始化对于实现清晰的记忆化至关重要。
提出的方法
- 证明通过梯度下降训练的单层全连接自编码器会收敛到一种解,该解将输入投影到训练样本的非线性张量上。
- 表明深层全连接自编码器在训练点处诱导出局部收缩映射,使得网络的迭代应用会收敛到最近的训练样本。
- 使用ReLU激活构建分段线性函数以表示非线性张量,证明具有(n+1)·d个隐藏单元的两层网络可实现该映射。
- 通过理论分析与实证验证,表明即使宽度固定,深度也能在卷积自编码器中实现记忆化。
- 使用零初始化的梯度下降,以确保收敛到最小范数解,与非零初始化导致的噪声记忆化形成对比。
- 通过MNIST和CIFAR-10自编码器的实证验证,显示测试输入的轨迹在迭代过程中收敛到训练图像。
实验结果
研究问题
- RQ1为何使用梯度下降训练的过参数化自编码器会学习到集中于训练数据而非任意插值函数的解?
- RQ2深度在卷积自编码器中实现记忆化的过程中起到什么作用?
- RQ3权重初始化如何影响自编码器中记忆化的出现?
- RQ4记忆化是否可能在高重建误差之外发生,且对早停是否具有鲁棒性?
- RQ5自编码器中的记忆化归纳偏差是否可推广到其他深度学习架构?
主要发现
- 使用梯度下降训练的单层全连接自编码器会将任意输入投影到训练数据的非线性张量上,从而有效记忆训练集。
- 深层全连接自编码器在训练样本处学习到一种局部收缩映射,使得网络的重复应用会收敛到某个训练样本。
- 实证结果表明,更深的网络会更快地将输入收缩到训练样本,证实深度增强了记忆化。
- 记忆化对早停具有鲁棒性,且不依赖于高重建误差;即使接近恒等函数的映射,也可能在训练点处具有局部收缩性。
- 当足够深时,卷积自编码器会表现出与全连接自编码器相同记忆化行为,确立了深度在记忆化中的必要性和充分性。
- 非零权重初始化会导致噪声记忆化,而零初始化能确保收敛到最小范数解,凸显了初始化在观察记忆化偏差中的关键作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。