QUICK REVIEW

[论文解读] A Closer Look at Memorization in Deep Networks

Devansh Arpit, Stanisław Jastrzȩbski|arXiv (Cornell University)|Jun 16, 2017

Adversarial Robustness in Machine Learning参考文献 24被引用 357

一句话总结

本文通过比较在真实数据与噪声上训练来研究深度网络的记忆化，结果表明网络先学习简单模式，正则化可以降低对噪声的记忆化速度而不损害对真实数据的学习。

ABSTRACT

We examine the role of memorization in deep learning, drawing connections to capacity, generalization, and adversarial robustness. While deep networks are capable of memorizing noise data, our results suggest that they tend to prioritize learning simple patterns first. In our experiments, we expose qualitative differences in gradient-based optimization of deep neural networks (DNNs) on noise vs. real data. We also demonstrate that for appropriately tuned explicit regularization (e.g., dropout) we can degrade DNN training performance on noise datasets without compromising generalization on real data. Our analysis suggests that the notions of effective capacity which are dataset independent are unlikely to explain the generalization performance of deep networks when trained with gradient based methods because training data itself plays an important role in determining the degree of memorization.

研究动机与目标

在基于梯度的训练下，检查记忆化在深度神经网络中的表现。
对比真实数据与随机噪声上的学习动力学，以理解模式的作用。
评估数据集属性与正则化如何影响记忆化与泛化。

提出的方法

通过在噪声（随机输入/标签）和真实数据上训练DNN来操作化记忆化。
比较真实数据与噪声数据之间的学习动力学、基于梯度的敏感性以及特征模式。
引入并测量损失敏感性和关键样本比率（CSR）以量化决策边界复杂性。
在不同噪声水平和数据集规模下分析容量以及有效容量。
评估正则化器（例如 dropout）和对抗性训练对记忆化速度与泛化的影响。

实验结果

研究问题

RQ1在基于 SGD 的训练下，DNNs 是否对真实数据的记忆与对随机噪声的记忆不同？
RQ2网络是否在记忆之前先学习简单模式？这是否依赖于数据的真实度？
RQ3数据集大小、容量和正则化如何影响真实数据与噪声数据上的记忆化和泛化？
RQ4正则化是否可以在不损害对真实数据学习的前提下减慢对噪声的记忆化？
RQ5哪些度量（如损失敏感性和 CSR）能够揭示跨数据集的记忆化动力学？

主要发现

在真实数据上训练的 DNN 在优化方面与在噪声上训练的具有定性差异。
在真实数据训练时，网络倾向于先学习简单模式再记忆。
显式正则化（如 dropout）可以减慢对噪声数据的记忆化，而对真实数据的学习影响不大。
对噪声数据的记忆随着噪声比例增高和训练时间延长而增加，表示更高的有效复杂性。
损失敏感性和 CSR 显示真实数据引发更有结构的基于模式的学习，而噪声导致更广泛、选择性较低的敏感性。
容量与噪声水平相互作用：更高的容量有助于记忆噪声输入，但真实数据的性能在中等容量下仍然稳健。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。