[论文解读] Improving robustness against common corruptions by covariate shift adaptation
论文表明通过将批归一化统计量适配到未标注的损坏图像,可以显著提高对常见损坏的鲁棒性,跨多种模型,并提出评估变体和基于简单 Wasserstein 距离的分析。
Today's state-of-the-art machine vision models are vulnerable to image corruptions like blurring or compression artefacts, limiting their performance in many real-world applications. We here argue that popular benchmarks to measure model robustness against common corruptions (like ImageNet-C) underestimate model robustness in many (but not all) application scenarios. The key insight is that in many scenarios, multiple unlabeled examples of the corruptions are available and can be used for unsupervised online adaptation. Replacing the activation statistics estimated by batch normalization on the training set with the statistics of the corrupted images consistently improves the robustness across 25 different popular computer vision models. Using the corrected statistics, ResNet-50 reaches 62.2% mCE on ImageNet-C compared to 76.7% without adaptation. With the more robust DeepAugment+AugMix model, we improve the state of the art achieved by a ResNet50 model up to date from 53.6% mCE to 45.4% mCE. Even adapting to a single sample improves robustness for the ResNet-50 and AugMix models, and 32 samples are sufficient to improve the current state of the art for a ResNet-50 architecture. We argue that results with adapted statistics should be included whenever reporting scores in corruption benchmarks and other out-of-distribution generalization settings.
研究动机与目标
- 证明在可获得未标记的损坏数据时,鲁棒性基准可能低估现实世界的性能。
- 提出在无监督下对批量归一化统计量的自适应,以减少从干净到损坏图像的协变量偏移。
- 在广泛的体系结构和数据集上展示鲁棒性提升。
- 就何时以及需要多少样本进行自适应提供实际指南。
- 引入度量和理论见解,将协变量偏移与通过 Wasserstein 距离的降级相关联。
提出的方法
- 通过从未标注的损坏样本计算目标统计量,并与训练统计量结合,使用伪样本大小参数 N 来实现 BN 统计的自适应。
- 通过在临时(n=1)、部分(n=8)和完全(n=50,000) 自适应场景下,利用平均损坏误差(mCE)评估鲁棒性。
- 在 ImageNet-C 上对 25 种体系结构进行测试,并与最先进的鲁棒性方法进行比较。
- 使用源统计量和目标统计量之间的 Wasserstein 距离来分析协变量偏移与性能之间的关系。
- 探索 BN 自适应并非有益的情况(如 IN-A、ON),并与 GN/Fixup 等替代方案进行比较。
- 提供一个简单的界限/模型,将自适应参数与预期的协方差偏移相关降级联系起来。
实验结果
研究问题
- RQ1在未标记损坏数据上适配批量归一化统计量,是否能提高对多样化体系结构的常见损坏鲁棒性?
- RQ2自适应数据量(伪样本大小 N 与样本数量 n)如何影响鲁棒性提升?
- RQ3在除 ImageNet-C 之外的不同损坏类型和数据集上,改进是否具有一致性?
- RQ4BN 统计量所捕获的协变量偏移是否可通过源分布和目标分布之间的 Wasserstein 距离来表征和预测?
- RQ5在哪些情形下 BN 自适应会失败或相较于替代归一化方案表现不佳?
主要发现
- 对 BN 统计量的自适应在 25 种体系结构中通常带来显著的鲁棒性提升,mCE 常约提升约 10 个点。
- 对于 Vanilla ResNet-50,自适应将 mCE 从 76.7% 降至 62.2%(全面自适应),并降至 65.0%(部分自适应)。
- 甚至对单个样本的自适应也能改善性能(例如 mCE 从 76.7% 提升到 71.4%),当 N≈0 且 n=1。
- 在 ResNet-50 的 IN-C 上,通过适配 BN 可以超越最先进的鲁棒性方法,例如 DeepAugment+AugMix 将 mCE 提高到 45.4%(相比未自适应的 53.6%)。
- 在 25 个模型族中,BN 自适应普遍提高 mCE,大约提升约 10 点;更大的预训练(如 IG-3.5B)可能降低或消除对自适应的需要。
- 源与目标 BN 统计量之间的 Wasserstein 距离在自适应前后均与 top-1 误差相关,可以进行无监督的性能估计。
- 自适应的有效性因数据集而异;对于 IN-A 与 ObjectNet,BN 自适应效果较弱,因为学习到的特征偏移不同,或更偏好非 BN 的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。