[论文解读] Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks
论文揭示了在10个常见基准的测试集中的普遍标签错误,展示它们对基准稳定性的影响,并主张纠正测试标签以更好地反映现实世界模型性能,尤其是在噪声数据下。
We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of at least 3.3% errors across the 10 datasets, where for example label errors comprise at least 6% of the ImageNet validation set. Putative label errors are identified using confident learning algorithms and then human-validated via crowdsourcing (51% of the algorithmically-flagged candidates are indeed erroneously labeled, on average across the datasets). Traditionally, machine learning practitioners choose which model to deploy based on test accuracy - our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet-50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by just 5%. Test set errors across the 10 datasets can be viewed at https://labelerrors.com and all label errors can be reproduced by https://github.com/cleanlab/label-errors.
研究动机与目标
- 量化 vision、language、audio 三个领域中10个基准数据集的测试集标签错误的普遍性。
- 评估测试集标签错误对基准稳定性和模型选择的影响。
- 提供开源资源和框架,用于评估修正后的测试准确性相对于原始测试准确性,以获得实际部署洞见。
提出的方法
- 应用 confident learning(CL)来估计测试集中观测标签与真实标签的联合分布。
- 优先将可能的标签错误提交至 Mechanical Turk 进行人工验证,以获取纠正标签。
- 通过专家评审验证 ImageNet 的 CL-标记和非 CL-标记错误,并量化错误流行程度。
- 分析修正后的测试准确性相对于原始测试准确性如何影响 ImageNet 和 CIFAR-10 的模型排名。
- 逐步改变测试集中的噪声发生率,以研究基准的不稳定性和模型选择的敏感性。
实验结果
研究问题
- RQ1跨模态在广泛使用的 ML 基准中的测试集标签错误的流行程度是多少?
- RQ2测试集标签错误如何影响基准稳定性和对高容量模型的相对优越性的感知?
- RQ3修正后的测试标签是否会改变模型排名,在何种条件下小模型在实践中可能超过大模型?
- RQ4我们能否提供开源资源以重现标签纠正并在修正标签下评估性能?
主要发现
- 10个数据集中平均测试集标签错误率至少为3.3%。
- ImageNet 验证集存在6%的潜在标签错误;QuickDraw 在 CL 分类结果的解释下超过10%的错误。
- 通过 MTurk 的人工验证表明,在各数据集中,大约有51%的算法标记候选项实际标签错误。
- 在使用修正标签时,基准排名大体保持不变,但高容量模型对噪声的反应更明显,随着错误标签普遍性增加,稳定性下降。
- 在 ImageNet 上,当原始错误标签示例的普遍性增加约6%时,ResNet-18 可以超过 ResNet-50;在 CIFAR-10 上,当错误标签普遍性增加约5%时,VGG-11 可以超过 VGG-19。
- 在可纠正子集上的修正后准确率(A*)可以颠覆在嘈杂测试数据上使用原始准确率(Ã)所观察到的许多表面提升,表明在实际部署中的意义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。