Skip to main content
QUICK REVIEW

[论文解读] mixup: Beyond Empirical Risk Minimization

Hongyi Zhang, Moustapha Cissé|arXiv (Cornell University)|Oct 25, 2017
Adversarial Robustness in Machine Learning参考文献 29被引用 4,731
一句话总结

本文提出 mixup,一种简单的邻近风险最小化技术,通过插值输入对及其标签来正则化神经网络,在视觉、语音和表格任务中提高泛化和鲁棒性。

ABSTRACT

Large deep neural networks are powerful, but exhibit undesirable behaviors such as memorization and sensitivity to adversarial examples. In this work, we propose mixup, a simple learning principle to alleviate these issues. In essence, mixup trains a neural network on convex combinations of pairs of examples and their labels. By doing so, mixup regularizes the neural network to favor simple linear behavior in-between training examples. Our experiments on the ImageNet-2012, CIFAR-10, CIFAR-100, Google commands and UCI datasets show that mixup improves the generalization of state-of-the-art neural network architectures. We also find that mixup reduces the memorization of corrupt labels, increases the robustness to adversarial examples, and stabilizes the training of generative adversarial networks.

研究动机与目标

  • 阐明大规模神经网络中经验风险最小化(ERM)存在的局限性,包括记忆化和对抗性敏感性。
  • 提出一种简单、与数据无关的增强方法,称为 mixup,通过凸组合输入与标签的插值扩展训练分布。
  • 证明 mixup 在 ImageNet、CIFAR、语音和表格数据上提高泛化能力,并减少对损坏标签的记忆以及对对抗样本的易受攻击性。
  • 通过消融研究探索设计选择的影响,并将 mixup 与数据增强和正则化领域的既有工作联系起来。

提出的方法

  • 通过采样两个训练样本和一个 Beta 分布的插值系数来构成合成输入并凸组合标签,定义 mixup 的 vicinal 分布。
  • 在这些合成对上训练网络,使模型在训练样本之间的行为近似线性。
  • 在尽量低的计算开销下实现 mixup,并展示当 alpha 趋近于零时可恢复 ERM。
  • 进行消融研究,以评估插值目标(输入与标签)、插值程度以及替代的增强策略。
  • 在 ImageNet、CIFAR-10/100、Google Commands 和 UCI 数据集上进行评估,以确立泛化和鲁棒性收益。
  • 表明 mixup 通过正则化判别器梯度来稳定 GAN 训练。

实验结果

研究问题

  • RQ1与标准 ERM 相比,mixup 是否在大规模视觉数据集及其他模态上提升泛化?
  • RQ2插值强度(alpha)如何影响训练动力学、记忆化以及对损坏标签或对抗性样本的鲁棒性?
  • RQ3mixup 对 GAN 的稳定性与性能,以及诸如语音和表格数据等非视觉任务的影响?
  • RQ4各种设计选择(输入对插值 vs 潜在表示插值、跨类别混合 vs 同类别内混合、标签处理)如何影响结果?

主要发现

  • Mixup 在 ImageNet 和 CIFAR 基准测试上相较于 ERM,在多种体系结构上实现了更好的泛化。
  • Mixup 在白盒和黑盒设置下均可减少对损坏标签的记忆,并提高对抗性样本的鲁棒性。
  • Mixup 在语音和表格数据集上也具有鲁棒性,表明其适用性超出图像分类。
  • 消融研究表明,mixup 始终优于替代的插值方案,其中对输入的线性插值和标签的凸组合是提升的关键贡献。
  • Mixup 可以通过对判别器梯度的正则化来稳定 GAN 训练,从而提高训练稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。