QUICK REVIEW

[论文解读] Do ImageNet Classifiers Generalize to ImageNet?

Benjamin Recht, Rebecca Roelofs|arXiv (Cornell University)|Feb 13, 2019

Advanced Neural Network Applications参考文献 52被引用 396

一句话总结

该论文为 CIFAR-10 和 ImageNet 重建新的测试集以评估泛化，发现显著的准确率下降，并且原始与新准确率之间存在强线性关系，表明对数据清洗和分布差距的脆弱性高于自适应过拟合。

ABSTRACT

We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% - 15% on CIFAR-10 and 11% - 14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.

研究动机与目标

评估在同一数据源收集的新测试数据上，针对 CIFAR-10 和 ImageNet 训练的图像分类器是否具备泛化能力。
量化数据采集/标注变异对报告的准确率的影响。
区分下降是由于自适应性（对测试集的过拟合）还是测试数据的分布差异。
分析在新测试集下模型排名和进展的可迁移性。
提供可复现的测试集和代码，以促进未来的泛化研究。

提出的方法

复现实验原始的测试集创建过程，以从相同数据源获取新的测试集（CIFAR-10 使用 Tiny Images；ImageNet 使用 Flickr 派生图像）。
人工筛选候选图像以确保标签质量并匹配原始标注协议（CIFAR-10 由学生标注；ImageNet 基于 MTurk 的标注）。
在原始和新测试集上评估跨越十多年发展的广泛模型（从 AlexNet 到当前的最前沿架构）。
将准确率差距分解为自适应性、分布差异和泛化差距，并分析原始与新准确率之间的线性关系。
通过构建三种不同选择频率策略的变体测试集，检验 MTurk 标注选择对 ImageNet 性能的影响。

实验结果

研究问题

RQ1在新收集的测试集上，分类器的表现与在原始测试集上的表现相比如何（针对 CIFAR-10 和 ImageNet）？
RQ2准确率下降的哪一部分归因于自适应性（对测试集的过拟合）与数据标注与采集中的分布差异？
RQ3后续模型在新测试集下是否仍保持相对排名，原始集上的改进是否能预测新集的改进？
RQ4ImageNet 的准确率对 MTurk 标注选择与注释策略有多敏感？
RQ5观察到的准确率下降是否可由一个在分布转移下保持模型序的简单数据难度模型来解释？

主要发现

在新测试集上评估时，所有模型的准确率显著下降：CIFAR-10 降幅 3%–15%；ImageNet 降幅 11%–14%。
在 ImageNet 上，最佳模型的下降相当于研究期间大约五年的进展。
原始与新测试集之间模型排名在很大程度上保持一致；较高的原始准确率通常预测较高的新准确率。
原始与新准确率之间存在线性关系，斜率大于 1（CIFAR-10 为 1.69，ImageNet 为 1.11），这表明原始的微小增益在新集上会带来更大的增益。
MTurk 注释策略对 ImageNet 的准确率影响很大；TopImages 略微提高准确率，MatchedFrequency 导致显著下降，显示对标注选择的脆弱性。
分布差距（数据收集/标注差异）被确认为准确率下降的主要驱动因素，甚于自适应过拟合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。