Skip to main content
QUICK REVIEW

[论文解读] From ImageNet to Image Classification: Contextualizing Progress on Benchmarks

Dimitris Tsipras, Shibani Santurkar|arXiv (Cornell University)|May 22, 2020
Mobile Crowdsensing and Crowdsourcing被引用 61
一句话总结

本文通过大规模的人类标注分析ImageNet数据收集管线中的偏差和错配,揭示多对象图像、标签-验证偏差,以及需要在标准准确度之外进行以人为中心的评估。

ABSTRACT

Building rich machine learning datasets in a scalable manner often necessitates a crowd-sourced data collection pipeline. In this work, we use human studies to investigate the consequences of employing such a pipeline, focusing on the popular ImageNet dataset. We study how specific design choices in the ImageNet creation process impact the fidelity of the resulting dataset---including the introduction of biases that state-of-the-art models exploit. Our analysis pinpoints how a noisy data collection pipeline can lead to a systematic misalignment between the resulting benchmark and the real-world task it serves as a proxy for. Finally, our findings emphasize the need to augment our current model training and evaluation toolkit to take such misalignments into account. To facilitate further research, we release our refined ImageNet annotations at https://github.com/MadryLab/ImageNetMultiLabel.

研究动机与目标

  • 评估ImageNet众包收集过程可能如何引入偏差并与现实世界的物体识别任务错配。
  • 量化多对象图像和标签验证偏差等问题在模型评估中的普遍性及影响。
  • 提出一个改进的标注流程,以更好地捕捉真实标签并研究其对模型性能的影响。
  • 倡导采用包含人类判断的评估指标,以补充ImageNet上的固定标签准确度。

提出的方法

  • 开发一个两阶段标注流程(通过模型预测获得候选标签;分类任务用于逐对象标注)以获得细粒度的图像标注。
  • 使用来自多个模型的前五个预测来为每个图像生成候选标签。
  • 使用 Contains 任务过滤候选标签,随后使用 Classify 任务为逐对象分配标签和主对象。
  • 使用多数投票汇总标注者回答,以推断每图像的对象数量和主标签。
  • 分析10,000张ImageNet验证图像(每类10张)以评估基准任务对齐情况。
  • 使用以人为中心的指标将模型预测与人工标注的真实值进行比较,超出固定图像标签准确度。

实验结果

研究问题

  • RQ1ImageNet标签与图像中的真实主对象和对象计数之间的对齐程度如何?
  • RQ2常见的数据收集和验证选择如何偏倚得到的标注和模型评估?
  • RQ3多对象图像和标签歧义对标准的前1/前5准确度有何影响?
  • RQ4人工参与的评估能否揭示传统准确度指标未能捕捉的进展?

主要发现

  • ImageNet中超过五分之一的图像包含来自多个类别的对象,表明基准中存在多对象图像。
  • 在多对象图像上,当仅用一个ImageNet标签进行评估时,模型准确度显著下降,但进行多标签评估可缩小差距。
  • 标注者在Contains任务中常常对多个互斥标签进行验证,揭示了验证过程中的偏差。
  • 人类有时与ImageNet主对象意见不一致,显示数据集标签与感知主对象之间的错配。
  • 更自然的评估方式是若预测与图像中的任意对象相符,或与人类标注的主对象相符,即视为正确,从而减轻一些偏差。
  • 从人类视角看,最先进的模型预测的标签非常接近ImageNet标签,这表明改进可能反映分布拟合而非真正的地面真相进步。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。