[论文解读] Exploring the Memorization-Generalization Continuum in Deep Learning
本文引入了一致性评分(C-score)以量化深度学习模型对单个样本预测的可靠性,揭示了记忆-泛化连续谱。通过估计模型在不同规模训练集上的表现一致性,C-score 能够在一端识别分布外样本和误标样本,另一端识别出常规且可泛化的模式,从而提升异常检测能力并深化对表征学习的理解。
Human learners appreciate that observations usually form hierarchies of regularities and sub-regularities. For example, English verbs have irregular cases that must be memorized (e.g., go -> went) and regular cases that generalize well (e.g., kiss -> kissed, miss -> missed). Likewise, deep neural networks have the capacity to memorize rare or irregular forms but nonetheless generalize across instances that share common patterns or structures. We analyze how individual instances are treated by a model via a consistency score. The score is the expected accuracy of a particular architecture for a held-out instance on a training set of a given size sampled from the data distribution. We obtain empirical estimates of this score for individual instances in multiple data sets, and we show that the score identifies out-of-distribution and mislabeled examples at one end of the continuum and regular examples at the other end. We explore two categories of proxies to the consistency score: pairwise distance based proxy and the training statistics based proxies. We conclude with two applications using C-scores to help understand the dynamics of representation learning and filter out outliers, and discussions of other potential applications such as curriculum learning, and active data collection.
研究动机与目标
- 理解深度神经网络如何在记忆罕见或异常样本与泛化常规模式之间取得平衡。
- 为每个样本的模型一致性开发可度量的代理指标,以评估其在不同训练集规模下的可靠性。
- 利用一致性评分识别分布外样本和误标样本,从而提升数据质量与模型鲁棒性。
- 探索 C-score 在表征学习、课程学习和主动数据收集中的应用潜力,以优化训练动态。
提出的方法
- 将一致性评分定义为:当模型在不同大小的训练子集上训练后,对保留样本的预测准确率的期望值。
- 通过从数据分布中抽取的多个训练子集样本,对单个样本的 C-score 进行经验估计。
- 提出两种代理方法:基于成对距离的代理方法(利用特征相似性)和基于训练统计的代理方法(利用训练过程中的激活模式)。
- 通过识别在不同训练集规模下一致性较低的样本,利用 C-score 检测分布外样本和误标样本。
- 利用 C-score 对数据进行过滤,通过优先选择高一致性、可泛化的样本,改善表征学习的动态过程。
- 在多个数据集上评估该方法,验证其区分常规可泛化样本与异常或损坏样本的能力。
实验结果
研究问题
- RQ1如何在不同规模的训练集上量化每个样本的模型一致性,以揭示记忆-泛化连续谱?
- RQ2C-score 在多大程度上能通过低一致性识别出分布外样本和误标样本?
- RQ3基于成对距离的代理方法与基于训练统计的代理方法在估计一致性评分方面表现如何比较?
- RQ4C-score 是否能通过在训练过程中过滤低一致性、易受异常影响的样本,从而改善表征学习?
- RQ5C-score 在课程学习和主动数据收集中具有哪些潜在应用?
主要发现
- C-score 能够通过检测在不同训练集规模下的一致性低值,有效识别出分布外样本和误标样本。
- 常规且可泛化的样本始终获得较高的 C-score,表明其在不同训练集规模下均表现出强模型可靠性。
- 基于训练统计的代理方法在估计一致性评分方面比基于成对距离的代理方法更为准确。
- C-score 揭示了记忆与泛化之间清晰的连续谱:高分表示泛化,低分表示对罕见或损坏样本的记忆。
- 过滤低 C-score 样本能提升模型的泛化能力与表征学习的动态性能。
- 该方法可通过优先选择高一致性、信息量大的样本,实现课程学习与主动数据收集等实际应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。