Skip to main content
QUICK REVIEW

[论文解读] BREEDS: Benchmarks for Subpopulation Shift

Shibani Santurkar, Dimitris Tsipras|arXiv (Cornell University)|Aug 11, 2020
Domain Adaptation and Few-Shot Learning参考文献 71被引用 19
一句话总结

本文提出了 BREEDS,一个通过利用 ImageNet 中的类别层次结构来创建受控且现实的分布偏移,以评估模型对子群体偏移鲁棒性的基准测试套件。结果表明,标准模型在未见过的子群体上会出现显著的准确率下降;尽管一些训练时的鲁棒性方法带来微小改进,但均无法完全缓解这种敏感性,凸显了当前鲁棒性评估中的关键空白。

ABSTRACT

We develop a methodology for assessing the robustness of models to subpopulation shift---specifically, their ability to generalize to novel data subpopulations that were not observed during training. Our approach leverages the class structure underlying existing datasets to control the data subpopulations that comprise the training and test distributions. This enables us to synthesize realistic distribution shifts whose sources can be precisely controlled and characterized, within existing large-scale datasets. Applying this methodology to the ImageNet dataset, we create a suite of subpopulation shift benchmarks of varying granularity. We then validate that the corresponding shifts are tractable by obtaining human baselines for them. Finally, we utilize these benchmarks to measure the sensitivity of standard model architectures as well as the effectiveness of off-the-shelf train-time robustness interventions. Code and data available at https://github.com/MadryLab/BREEDS-Benchmarks .

研究动机与目标

  • 为解决缺乏评估模型在训练期间未出现过的数据子群体上泛化能力的基准测试这一问题。
  • 提出一种方法,使在现有大规模数据集(如 ImageNet)中实现受控且现实的子群体偏移成为可能。
  • 通过人类基线验证这些偏移的真实性和可处理性。
  • 评估标准模型以及现成的鲁棒性干预措施在子群体偏移下的鲁棒性。
  • 证明当前的鲁棒性技术在应对这种特定形式的分布偏移时改善有限。

提出的方法

  • 利用 ImageNet 中现有的 WordNet 类别层次结构,将超类定义为语义一致的子群体。
  • 通过使训练子群体与测试子群体互不重叠来构建子群体偏移——例如,在贵宾犬和梗犬上训练,在斑点犬上测试。
  • 通过修改 WordNet 层次结构,将语义相似的类别分组,以确保子群体的视觉一致性。
  • 开展人类研究,验证这些偏移具有意义且非平凡,确认基准测试真实反映了现实世界中的泛化挑战。
  • 将该基准测试应用于评估标准模型以及训练时的鲁棒性干预措施,如对抗训练、噪声增强和风格化数据。
  • 在目标域数据上微调最终的线性层,以评估领域自适应的潜力。

实验结果

研究问题

  • RQ1即使这些子群体在视觉和语义上都一致,标准模型在未接触过的子群体上泛化能力如何,即使它们在原始分布上表现优异?
  • RQ2现有的鲁棒性训练技术(专为数据损坏或对抗性样本设计)是否能改善对子群体偏移的泛化能力?
  • RQ3在目标域数据上微调最后一层能在多大程度上恢复因子群体偏移而损失的性能?
  • RQ4通过人类表现验证,所诱导的子群体偏移是否真实且非平凡?
  • RQ5模型在原始分布上的准确率与对子群体偏移的鲁棒性之间是否存在相关性?

主要发现

  • 在 ImageNet 上训练的模型在子群体偏移基准测试中表现出显著的性能下降,准确率从原始分布上的 90% 以上降至 Non-living-26 基准测试中目标分布的最低 41.8%。
  • 人类表现保持较高水平(例如,在 Living-17 上达到 85.96%),表明该偏移对模型具有挑战性但对人类并非如此,凸显了关键的鲁棒性差距。
  • 在原始分布上准确率更高的模型对子群体偏移更具鲁棒性,表明域内性能与分布外泛化之间存在相关性。
  • 对抗训练及其他数据增强技术(如擦除噪声、高斯噪声)在鲁棒性方面带来微小但非平凡的提升,尽管通常以牺牲原始分布准确率为代价。
  • 在目标域数据上微调最后一层可部分恢复性能,但无法完全恢复原始准确率,表明特征层面的分布偏移依然存在。
  • 目前没有任何鲁棒性干预措施能显著缓解对子群体偏移的敏感性,表明 BREEDS 提供了一个具有挑战性且有别于现有基准的鲁棒性评估标准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。