[论文解读] What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation
该论文通过估计训练样本的 memorization 和 influence,对长期尾部记忆理论进行了实证验证,结果表明被记忆的样本显著有助于泛化,且许多高影响力的对往往来自单个训练样本。论文还分析了跨体系结构的一致性以及记忆化发生的深度。
Deep learning algorithms are well-known to have a propensity for fitting the training data very well and often fit even outliers and mislabeled data points. Such fitting requires memorization of training data labels, a phenomenon that has attracted significant research interest but has not been given a compelling explanation so far. A recent work of Feldman (2019) proposes a theoretical explanation for this phenomenon based on a combination of two insights. First, natural image and data distributions are (informally) known to be long-tailed, that is have a significant fraction of rare and atypical examples. Second, in a simple theoretical model such memorization is necessary for achieving close-to-optimal generalization error when the data distribution is long-tailed. However, no direct empirical evidence for this explanation or even an approach for obtaining such evidence were given. In this work we design experiments to test the key ideas in this theory. The experiments require estimation of the influence of each training example on the accuracy at each test example as well as memorization values of training examples. Estimating these quantities directly is computationally prohibitive but we show that closely-related subsampled influence and memorization values can be estimated much more efficiently. Our experiments demonstrate the significant benefits of memorization for generalization on several standard benchmarks. They also provide quantitative and visually compelling evidence for the theory put forth in (Feldman, 2019).
研究动机与目标
- 提出并检验在长尾数据分布下记忆化有助于泛化的长期尾部理论。
- 开发适用于大规模数据集的高效记忆化和影响估计方法。
- 量化记忆化样本的边际效用,并识别高影响力的训练-测试对。
- 评估记忆化和影响在不同体系结构和数据情境中的变化。
- 探究记忆化主要存在于网络表示的哪个位置(如深层表示)。
提出的方法
- 将记忆化定义为将第 i 个样本加入训练集后 h(x_i) = y_i 的概率的变化(Eq. 1)。
- 引入一个子采样估计量 mem_m,用大小为 m 的随机子集来实现可行的估计。
- 定义一个子采样影响 infl_m,用于估计将训练样本包括在内对测试准确率的影响,且在随机子集上取平均。
- 在大小为 m 的随机子集上训练模型,并在子集包含或不包含 i 时计算 Pr(h_k(x) = y),以估计记忆化和影响。
- 给出选择阈值 theta_mem = 0.25 和 theta_infl = 0.15,用于识别高记忆化和高影响对。
- 在 ImageNet、CIFAR-100 和 MNIST 上用 ResNet50 进行实验,估计记忆化和影响,并将边际效用与随机子集基线进行比较。
- 检查跨体系结构的一致性以及记忆化主要位于深层表示而非最后一层的说法。
实验结果
研究问题
- RQ1如 Fel19 所提出,记忆化在长尾数据分布中是否对泛化有显著贡献?
- RQ2高效的子采样是否能够为大规模数据集提供准确的记忆化和影响估计?
- RQ3记忆化样本是否相对于随机选择的样本在提高测试准确率方面具有更高的边际效用?
- RQ4高影响力的训练-测试对是否集中在单个训练样本周围,且是否具有可视化的可解释性?
- RQ5在不同体系结构中,记忆化主要发生在网络的哪一层(最后一层 vs 表示层)?
主要发现
- 在 CIFAR-100 和 ImageNet 中,存在相当大比例的记忆化样本,一些记忆化估计值 ≥ 0.3,且移除后边际效用显著。
- 记忆化样本的边际效用高于同等大小的随机子集,表明记忆化的贡献不仅仅在于减少样本量。
- 存在大量高影响力的训练-测试对(例如 ImageNet 中有 1641 对),且许多测试样本受到单个训练样本的影响(1298 个测试样本)。
- 高影响力对通常可视化解释,反映出有意义的相似性或近重复样本,凸显长期尾部中的子群体。
- 移除记忆化样本会降低测试准确率;在 CIFAR-100 中,移除记忆化集合时,对高影响部分的准确率下降更大(贡献为 2.38%),高于整体。
- 大部分记忆化发生在深层表示中,而非最后一层,这一点由仅在固定表示上训练线性分类器效果有限所示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。