Skip to main content
QUICK REVIEW

[论文解读] Are we done with ImageNet?

Lucas Beyer, Olivier J. Hénaff|arXiv (Cornell University)|Jun 12, 2020
Domain Adaptation and Few-Shot Learning参考文献 32被引用 75
一句话总结

本文提出 ReaL(重新评估标签)对 ImageNet 验证数据进行重新标注,显示近期在 ImageNet 上的进展高估了真实进展,并且 ReaL 的进展与原始标签存在偏离;此外还提出两种训练改进以缓解标签噪声。

ABSTRACT

Yes, and no. We ask whether recent progress on the ImageNet classification benchmark continues to represent meaningful generalization, or whether the community has started to overfit to the idiosyncrasies of its labeling procedure. We therefore develop a significantly more robust procedure for collecting human annotations of the ImageNet validation set. Using these new labels, we reassess the accuracy of recently proposed ImageNet classifiers, and find their gains to be substantially smaller than those reported on the original labels. Furthermore, we find the original ImageNet labels to no longer be the best predictors of this independently-collected set, indicating that their usefulness in evaluating vision models may be nearing an end. Nevertheless, we find our annotation procedure to have largely remedied the errors in the original labels, reinforcing ImageNet as a powerful benchmark for future research in visual recognition.

研究动机与目标

  • 评估 ImageNet 的进展是否能够超越标签的怪癖泛化。
  • 开发一个鲁棒的多标签人类标注流程,以重新评估 ImageNet 验证标签。
  • 比较模型在原始 ImageNet 准确率与 ReaL 准确率上的进展,以评估真实进步。
  • 提出在训练过程中解决 ImageNet 标签噪声与多目标内容的技术。

提出的方法

  • 汇集自 19 个模型的提案以为 ImageNet 图像生成候选标签,然后筛选一个紧凑的模型子集,在提高准确性的同时保持较高召回率。
  • 对每个候选标签/每张图像进行5个专家标注的众包,并应用 Dawid–Skene 模型推断真实标签的相关性。
  • 将 ReaL 准确率定义为模型的前1预测位于重新评估标签集合之内(多标签考虑)。
  • 分析在不同模型代际中 ImageNet 准确率与 ReaL 准确率的关系,以衡量泛化能力与标签偏差。
  • 研究多标签预测和类别共现偏差,以理解 ImageNet 中的残留错误与偏见。

实验结果

研究问题

  • RQ1ImageNet 的准确率是否能可靠地跟踪与人类对齐的重新评估标签(ReaL)上的进展?
  • RQ2现代 ImageNet 模型在多大程度上利用原始标注程序中的偏差?
  • RQ3采用替代损失函数或清洗数据的训练能否提高对标签噪声和长时间训练过拟合的鲁棒性?
  • RQ4多标签或前k个预测是否更能反映人类对 ImageNet 图像的感知判断?

主要发现

  • 对于近期模型,ReaL 准确率的进展落后于 ImageNet 进展,表明对人类偏好的泛化能力较弱。
  • 一些近期模型在预测 ReaL 标签方面超过原始 ImageNet 标签,表明原始标签作为评估指标的有用性在下降。
  • ReaL 标签去除了大量标注错误,表明 ReaL 更忠实地基准于视觉识别进展。
  • 两个简单的训练改进——对多标签预测改为 sigmoid 损失以及清洗训练集标签——在较长的训练计划中尤为显著,带来稳定的提升。
  • 清洗训练数据并使用 sigmoid 损失在前1和 ReaL 准确率上可带来显著提升,表明标签噪声是较长训练时期的限制因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。