Skip to main content
QUICK REVIEW

[论文解读] GradAug: A New Regularization Method for Deep Neural Networks

Taojiannan Yang, Sijie Zhu|arXiv (Cornell University)|Jun 14, 2020
Adversarial Robustness in Machine Learning参考文献 41被引用 24
一句话总结

GradAug 是一种用于深度神经网络的新颖正则化方法,通过在从完整网络中按宽度采样得到的子网络上应用随机图像变换(例如缩放、裁剪)来增强泛化能力。通过这些变换引入自引导的梯度扰动,GradAug 将 ResNet-50 在 ImageNet 上的 Top-1 准确率提升至 78.79%,结合 CutMix 后进一步提升至 79.67%,在目标检测、实例分割以及对噪声和对抗性攻击的鲁棒性方面均优于当前最先进方法。

ABSTRACT

We propose a new regularization method to alleviate over-fitting in deep neural networks. The key idea is utilizing randomly transformed training samples to regularize a set of sub-networks, which are originated by sampling the width of the original network, in the training process. As such, the proposed method introduces self-guided disturbances to the raw gradients of the network and therefore is termed as Gradient Augmentation (GradAug). We demonstrate that GradAug can help the network learn well-generalized and more diverse representations. Moreover, it is easy to implement and can be applied to various structures and applications. GradAug improves ResNet-50 to 78.79% on ImageNet classification, which is a new state-of-the-art accuracy. By combining with CutMix, it further boosts the performance to 79.67%, which outperforms an ensemble of advanced training tricks. The generalization ability is evaluated on COCO object detection and instance segmentation where GradAug significantly surpasses other state-of-the-art methods. GradAug is also robust to image distortions and FGSM adversarial attacks and is highly effective in low data regimes. Code is available at https://github.com/taoyang1122/GradAug

研究动机与目标

  • 为解决过参数化深度神经网络中的过拟合问题,尤其是在低数据量场景以及目标检测和分割等下游任务中。
  • 开发一种与任务无关的正则化方法,避免像 CutMix 这类样本混合技术引入的语义和标签歧义。
  • 通过自引导的梯度扰动,鼓励多样且鲁棒的表征学习,从而提升模型泛化能力。
  • 设计一种简单、高效且广泛适用的正则化技术,适用于不同网络架构和视觉任务。

提出的方法

  • GradAug 通过在训练过程中随机减少完整网络中每一层的宽度(通道数)来采样子网络。
  • 在将输入图像送入不同子网络之前,应用随机图像变换(如随机缩放、裁剪、旋转和翻转)。
  • 完整网络的权重在所有子网络之间共享,从而实现知识迁移与联合优化。
  • 子网络使用来自完整网络在相同变换输入下的输出生成的软标签进行训练,实现知识蒸馏而无需独立的教师网络。
  • 该方法通过让子网络接触多样化且经过变换的输入,在梯度层面引入扰动,促进鲁棒且多样的特征学习。
  • 该方法与现有数据增强技术兼容,可与 CutMix 等技术结合以进一步提升性能。

实验结果

研究问题

  • RQ1一种通过子网络训练生成自引导梯度扰动的正则化方法,能否提升深度网络的泛化能力?
  • RQ2在图像分类、目标检测和实例分割任务中,GradAug 相较于当前最先进数据增强与结构正则化方法表现如何?
  • RQ3GradAug 是否能增强模型对图像噪声和对抗性攻击的鲁棒性?
  • RQ4在低数据量场景下(如 CIFAR-10 上仅 250–4000 个标签),GradAug 是否仍能保持优异性能,而当前 SOTA 方法在此类设置下表现不佳?
  • RQ5GradAug 是否能与现有数据增强技术(如 CutMix)有效结合,进一步提升准确率?

主要发现

  • GradAug 将 ResNet-50 在 ImageNet 上的 Top-1 准确率提升至 78.79%,创下新 SOTA 记录。
  • 当与 CutMix 结合使用时,GradAug 在 ImageNet 上实现 79.67% 的 Top-1 准确率,超越了使用多种先进训练技巧的集成方法。
  • 在 COCO 目标检测与实例分割任务中,GradAug 仅使用 ImageNet 预训练权重,便使 Mask R-CNN-R50 的框 AP 提升 +1.2,掩码 AP 提升 +1.2。
  • 当直接应用于检测框架时,GradAug 相较基线模型实现 +1.7 框 AP 和 +2.1 掩码 AP 的性能提升。
  • GradAug 展现出对图像噪声和 FGSM 对抗性攻击的强鲁棒性,优于基线模型。
  • 在低数据量场景下(如 CIFAR-10 上 250–4000 个标签),GradAug 持续优于基线模型,而当前 SOTA 方法在此类设置下表现不佳。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。