Skip to main content
QUICK REVIEW

[论文解读] Identifying Mislabeled Data using the Area Under the Margin Ranking

Geoff Pleiss, Tianyi Zhang|arXiv (Cornell University)|Jan 28, 2020
Machine Learning and Data Classification参考文献 71被引用 45
一句话总结

该论文引入 Area Under the Margin (AUM) 通过跟踪逐样本的训练动态来识别错误标注数据,并使用带有额外类别的阈值样本将错误标注数据与正确标注数据分离,在移除识别出的错误标注样本后提升测试误差。它在 WebVision、CIFAR/Tiny ImageNet 和真实世界弱标注数据集上展示了收益。

ABSTRACT

Not all data in a typical training set help with generalization; some samples can be overly ambiguous or outrightly mislabeled. This paper introduces a new method to identify such samples and mitigate their impact when training neural networks. At the heart of our algorithm is the Area Under the Margin (AUM) statistic, which exploits differences in the training dynamics of clean and mislabeled samples. A simple procedure - adding an extra class populated with purposefully mislabeled threshold samples - learns a AUM upper bound that isolates mislabeled data. This approach consistently improves upon prior work on synthetic and real-world datasets. On the WebVision50 classification task our method removes 17% of training data, yielding a 1.6% (absolute) improvement in test error. On CIFAR100 removing 13% of the data leads to a 1.2% drop in error.

研究动机与目标

  • 说明错误标注数据对深度网络泛化的影响。
  • 提出一种简单、即插即用的方法,从训练动态中识别错误标注样本。
  • 将 AUM (Area Under the Margin) 作为逐样本度量引入。
  • 通过额外类别的阈值样本来稳健地分离错误标注数据,而无需可信的验证数据。
  • 通过清理合成和真实世界基准数据集来展示改进。

提出的方法

  • 定义逐样本对数值边际 M^(t)(x,y),即分配的对数值与其他最高对数值之间的差。
  • 将 AUM(x,y) 计算为在训练轮次上的边际的平均值:AUM = (1/T) sum_t M^(t)(x,y)。
  • 引入一个额外的人工类别(c+1),并将阈值样本的子集分配到该类别,以为错误标注数据创建一个参考 AUM 分布。
  • 训练两个网络,直到首次学习率下降:一次使用原始数据加阈值样本,一次使用阈值样本并根据 AUM 阈值逐步移除原始数据。
  • 使用阈值样本的 AUM 的 99 百分位数作为阈值 α 来识别错误标注数据:保留 AUM > α 的数据,移除 AUM ≤ α 的数据。
  • 对不同的阈值样本重复,以识别剩余的错误标注数据。
  • 通过合成噪声数据上的精确率/召回率来分析识别效果,并通过在移除标记样本后训练分类器进行验证。

实验结果

研究问题

  • RQ1AUM 是否能够基于训练动态区分错误标注样本和正确标注样本?
  • RQ2通过添加带有额外类别的阈值样本是否能产生一个稳健的、依赖数据集的阈值,用于在没有可信验证数据的情况下分离错误标注数据?
  • RQ3在移除 AUM 标识的样本后训练的分类器在合成与真实世界的嘈杂数据集上是否显示出更高的测试准确率?
  • RQ4该方法在不同架构、数据增强和不同噪声水平下是否鲁棒?

主要发现

  • AUM 捕捉了错误标注样本与正确标注样本之间的不同训练动态,使数据质量的排序更可靠。
  • 带额外类别的阈值样本构造提供了一种实用且无需验证数据即可设置 AUM 阈值的方法。
  • 在合成和真实世界数据集上,移除 AUM 标识的错误标注样本可改善测试误差,有时接近或达到 oracle 清洗性能。
  • 该方法在错误标注数据识别中实现高精度和高召回,在具有挑战性的数据集上优于若干先前方法。
  • 在真实世界的弱标注数据集(WebVision50、Clothing100K、ImageNet 规模)上,基于 AUM 的清洗在减少错误的同时可移除可控比例的数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。