Skip to main content
QUICK REVIEW

[论文解读] Are All Training Examples Created Equal? An Empirical Study

Kailas Vodrahalli, Ke Li|arXiv (Cornell University)|Nov 30, 2018
Machine Learning and Algorithms参考文献 18被引用 45
一句话总结

本文提出一种基于梯度的重要性度量,用以评估不同数据集之间训练图像的相对价值,并考察选取的较小子集在代表完整数据集方面的能力。研究发现 MNIST 存在显著冗余,而 CIFAR-10/100 和 ImageNet 呈现多样性(冗余性较小),这对主动学习和数据收集具有重要意义。

ABSTRACT

Modern computer vision algorithms often rely on very large training datasets. However, it is conceivable that a carefully selected subsample of the dataset is sufficient for training. In this paper, we propose a gradient-based importance measure that we use to empirically analyze relative importance of training images in four datasets of varying complexity. We find that in some cases, a small subsample is indeed sufficient for training. For other datasets, however, the relative differences in importance are negligible. These results have important implications for active learning on deep networks. Additionally, our analysis method can be used as a general tool to better understand diversity of training examples in datasets.

研究动机与目标

  • 鼓励了解深度学习视觉任务中大规模训练数据集的属性的重要性。
  • 提出一种基于梯度的重要性度量,用以量化每张图像的训练价值。
  • 评估通过梯度基重要性选择的子样本在多数据集与多架构上再现完整数据集性能的能力。
  • 分析数据集属性中的简单性与冗余性,以解释多样性与训练难度。

提出的方法

  • 在完整数据集上训练网络,并在训练结束时计算损失相对于模型参数的每张图像梯度。
  • 使用梯度幅值对训练图像按重要性排序,并从排序靠前的图像中选取大小为 k 的子样本。
  • 比较子采样策略,包括 Random、Max-Gradient、Non-extreme Max-Gradient,以及 Gradient-CDF(按梯度幅值成比例的概率采样)。
  • 在每个子样本上从随机初始化重新训练模型,以测试准确率作为子集代表性的代理度量。
  • 分析梯度基排序在不同模型之间的一致性,以及前 k 张图像的类别标签熵,以评估多样性与模型依赖性。

实验结果

研究问题

  • RQ1梯度基重要性分数是否能够识别出一小部分训练图像,其表现可以与使用完整数据集时的表现相匹配?
  • RQ2数据集复杂度(MNIST 与 CIFAR-10/100 与 ImageNet)如何影响梯度基子采样的有效性?
  • RQ3梯度基重要性度量在同一数据集的不同模型结构之间是否鲁棒?
  • RQ4在使用梯度基数据选择时,主动学习和数据集收集有哪些启示?

主要发现

  • MNIST 显示出显著的冗余;Max-Gradient 子采样仅用极少量数据就能达到与完整数据相当的性能。
  • CIFAR-10、CIFAR-100 和 ImageNet 通常需要大多数训练样本以获得最佳性能;对 CIFAR 数据集,梯度基子采样往往不如随机采样有效。
  • Gradient-CDF(基于梯度的概率采样)与随机采样高度一致,减轻单纯 Max-Gradient 方法的偏斜。
  • 顶端梯度图像可能对模型特定,表明“难”样本取决于架构;但某些结果在不同模型之间具有普遍性(梯度基排序的跨模型相似性)。
  • 研究表明,对于更具多样性的数据集,相较于 MNIST,在深层网络上进行主动学习可能更具挑战性,这是由于 CIFAR 和 ImageNet 的冗余性较低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。