[论文解读] SaliencyMix: A Saliency Guided Data Augmentation Strategy for Better Regularization
SaliencyMix 通过显著性图选择信息性补丁并将其混入目标图像以引导学习,从而提升泛化性、鲁棒性以及对对象检测的迁移。它在 CIFAR 和 ImageNet 上达到SOTA,并在用于预训练时提升 Faster R-CNN 的性能。
Advanced data augmentation strategies have widely been studied to improve the generalization ability of deep learning models. Regional dropout is one of the popular solutions that guides the model to focus on less discriminative parts by randomly removing image regions, resulting in improved regularization. However, such information removal is undesirable. On the other hand, recent strategies suggest to randomly cut and mix patches and their labels among training images, to enjoy the advantages of regional dropout without having any pointless pixel in the augmented images. We argue that such random selection strategies of the patches may not necessarily represent sufficient information about the corresponding object and thereby mixing the labels according to that uninformative patch enables the model to learn unexpected feature representation. Therefore, we propose SaliencyMix that carefully selects a representative image patch with the help of a saliency map and mixes this indicative patch with the target image, thus leading the model to learn more appropriate feature representation. SaliencyMix achieves the best known top-1 error of 21.26% and 20.09% for ResNet-50 and ResNet-101 architectures on ImageNet classification, respectively, and also improves the model robustness against adversarial perturbations. Furthermore, models that are trained with SaliencyMix help to improve the object detection performance. Source code is available at https://github.com/SaliencyMix/SaliencyMix.
研究动机与目标
- 推动改进数据增强,以避免将信息性补丁与背景噪声混合。
- 提出基于显著性的补丁选择机制以引导图像混合。
- 展示分类准确性提升、对对抗扰动的鲁棒性提升,以及对对象检测的迁移能力。
提出的方法
- 使用 Montabone & Soto 2010 的显著性检测器提取源图像的显著性图。
- 在峰值显著性区域周围选择一个补丁,以确保保留与对象相关的信息。
- 使用二值掩模将所选补丁混入目标图像,并进行相应的标签插值 y_a = λ y_t + (1−λ) y_s。
- 在训练中将该混合作为数据增强以正则化模型。
- 在 CIFAR-10/100、ImageNet,以及带有 ResNet 和 WideResNet 主干的对象检测(Faster R-CNN)上进行评估。
实验结果
研究问题
- RQ1相比随机补丁选择(如 CutMix),显著性引导的补丁选择是否提升了正则化效果?
- RQ2SaliencyMix 如何在 CIFAR 和 ImageNet 的标准网络架构上影响 top-1/top-5 的准确率?
- RQ3训练后的 SaliencyMix 模型在迁移到 Faster R-CNN 时是否能提升对象检测性能?
- RQ4与其他增强方法相比,SaliencyMix 是否提升对抗性扰动的鲁棒性?
主要发现
- SaliencyMix 在 WideResNet-28-10 上在 CIFAR-10 的 top-1 错误率为 2.76%,在 CIFAR-100 为 16.56%,优于若干基线。
- 在 ImageNet 上,SaliencyMix 在 ResNet-50 为 21.26% top-1 和 5.76% top-5,在 ResNet-101 为 20.09% top-1 和 5.15% top-5,超越多种数据增强方法。
- SaliencyMix 训练的模型在用于预训练时,使 Pascal VOC 的 Faster R-CNN 检测性能提升了 +1.77 mAP。
- SaliencyMix 提高对抗鲁棒性,在对抗性扰动的 ImageNet 验证集上,相较 CutMix 提升了 1.96 个百分点的准确率。
- SaliencyMix 引入了适度的计算开销以进行显著性图计算,但带来显著的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。