Skip to main content
QUICK REVIEW

[论文解读] Measuring Robustness to Natural Distribution Shifts in Image Classification

Rohan Taori, Achal Dave|arXiv (Cornell University)|Jul 1, 2020
Anomaly Detection Techniques and Applications参考文献 99被引用 170
一句话总结

本文在 204 个 ImageNet 模型上评估 213 个自然分布移位,以评估在合成移位上学到的鲁棒性是否会转移到现实世界的自然移位,并发现大多不会;在更丰富的数据上进行训练有一定的帮助,但对自然移位的鲁棒性仍然是一个待解决的问题。

ABSTRACT

We study how robust current ImageNet models are to distribution shifts arising from natural variations in datasets. Most research on robustness focuses on synthetic image perturbations (noise, simulated weather artifacts, adversarial examples, etc.), which leaves open how robustness on synthetic distribution shift relates to distribution shift arising in real data. Informed by an evaluation of 204 ImageNet models in 213 different test conditions, we find that there is often little to no transfer of robustness from current synthetic to natural distribution shift. Moreover, most current techniques provide no robustness to the natural distribution shifts in our testbed. The main exception is training on larger and more diverse datasets, which in multiple cases increases robustness, but is still far from closing the performance gaps. Our results indicate that distribution shifts arising in real data are currently an open research problem. We provide our testbed and data as a resource for future work at https://modestyachts.github.io/imagenet-testbed/ .

研究动机与目标

  • 评估当前 ImageNet 模型如何处理源自现实世界变异的自然分布移位。
  • 区分对自然移位的鲁棒性与对合成扰动的鲁棒性。
  • 在控制准确率的前提下,量化标准准确性与移位鲁棒性之间的关系。
  • 识别能显著提升对自然移位性能的鲁棒性干预措施。
  • 提供一个大规模的开放测试平台和数据集,以指导未来的鲁棒性研究。

提出的方法

  • 在涵盖自然与合成移位的 213 种测试条件下评估 204 个预训练的 ImageNet 模型。
  • 为每个模型定义带有标准(S1)和移位(S2)准确率的双测试集框架。
  • 引入有效鲁棒性:ρ(f) = acc2(f) − β(acc1(f)),其中 β 是从标准准确率映射到移位准确率的基线。
  • 定义相对鲁棒性 τ(f′) = acc2(f′) − acc2(f),用于衡量干预影响。
  • 将移位分为自然移位(一致性、数据集移位、对抗性过滤)和合成移位(图像劣化、风格迁移、对抗样本)。
  • 分析合成鲁棒性指标与自然鲁棒性之间的相关性;评估训练数据规模对鲁棒性的影响。

实验结果

研究问题

  • RQ1从合成分布移位获得的鲁棒性是否会转移到对自然分布移位的鲁棒性?
  • RQ2提高合成鲁棒性的鲁棒性干预是否也会提高对自然移位的鲁棒性?
  • RQ3在更大或更丰富数据集上的训练如何影响对自然移位的鲁棒性?
  • RQ4我们是否可以定义一个指标(有效鲁棒性)来将标准准确性与鲁棒性增益分离?
  • RQ5哪些自然分布移位最能预测鲁棒性干预带来的改进?

主要发现

  • 在测试平台上,鲁棒性干预在很大程度上无法提升对自然分布移位的性能。
  • 在显著更多样的数据上进行训练在某些数据集移位上带来微小但可检测的鲁棒性提升,尽管这些提升取决于数据规模且并非普遍适用。
  • 标准测试集的模型准确性强烈预测对自然分布移位的准确性(在若干移位上具有较高的 r2,例如 ImageNetV2、ObjectNet)。
  • 对抗训练(Lp)模型对一致性移位(ImageNet-Vid-Robust 和 YTBB-Robust)显示显著的有效鲁棒性,但相对鲁棒性常常为负,除少数例外。
  • ImageNet-A 显示拐点:标准准确率更高的模型在 ImageNet-A 上的提升幅度远大于低准确率模型,表明对抗性筛选会产生本质上不同的移位。
  • 汇总的合成鲁棒性度量(图像劣化、PGD 攻击)对自然移位的有效鲁棒性预测力很弱(相关性大约为 0–0.24)。
  • 一些在海量数据上训练的模型(如 EfficientNet-L2 NoisyStudent、ResNet152 在 11k+ 类上)显示正向的有效鲁棒性,但并非所有高数据模型都如此。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。