[论文解读] mixup: Beyond Empirical Risk Minimization
本文提出 mixup,一种简单的邻近风险最小化技术,通过插值输入对及其标签来正则化神经网络,在视觉、语音和表格任务中提高泛化和鲁棒性。
Large deep neural networks are powerful, but exhibit undesirable behaviors such as memorization and sensitivity to adversarial examples. In this work, we propose mixup, a simple learning principle to alleviate these issues. In essence, mixup trains a neural network on convex combinations of pairs of examples and their labels. By doing so, mixup regularizes the neural network to favor simple linear behavior in-between training examples. Our experiments on the ImageNet-2012, CIFAR-10, CIFAR-100, Google commands and UCI datasets show that mixup improves the generalization of state-of-the-art neural network architectures. We also find that mixup reduces the memorization of corrupt labels, increases the robustness to adversarial examples, and stabilizes the training of generative adversarial networks.
研究动机与目标
- 阐明大规模神经网络中经验风险最小化(ERM)存在的局限性,包括记忆化和对抗性敏感性。
- 提出一种简单、与数据无关的增强方法,称为 mixup,通过凸组合输入与标签的插值扩展训练分布。
- 证明 mixup 在 ImageNet、CIFAR、语音和表格数据上提高泛化能力,并减少对损坏标签的记忆以及对对抗样本的易受攻击性。
- 通过消融研究探索设计选择的影响,并将 mixup 与数据增强和正则化领域的既有工作联系起来。
提出的方法
- 通过采样两个训练样本和一个 Beta 分布的插值系数来构成合成输入并凸组合标签,定义 mixup 的 vicinal 分布。
- 在这些合成对上训练网络,使模型在训练样本之间的行为近似线性。
- 在尽量低的计算开销下实现 mixup,并展示当 alpha 趋近于零时可恢复 ERM。
- 进行消融研究,以评估插值目标(输入与标签)、插值程度以及替代的增强策略。
- 在 ImageNet、CIFAR-10/100、Google Commands 和 UCI 数据集上进行评估,以确立泛化和鲁棒性收益。
- 表明 mixup 通过正则化判别器梯度来稳定 GAN 训练。
实验结果
研究问题
- RQ1与标准 ERM 相比,mixup 是否在大规模视觉数据集及其他模态上提升泛化?
- RQ2插值强度(alpha)如何影响训练动力学、记忆化以及对损坏标签或对抗性样本的鲁棒性?
- RQ3mixup 对 GAN 的稳定性与性能,以及诸如语音和表格数据等非视觉任务的影响?
- RQ4各种设计选择(输入对插值 vs 潜在表示插值、跨类别混合 vs 同类别内混合、标签处理)如何影响结果?
主要发现
- Mixup 在 ImageNet 和 CIFAR 基准测试上相较于 ERM,在多种体系结构上实现了更好的泛化。
- Mixup 在白盒和黑盒设置下均可减少对损坏标签的记忆,并提高对抗性样本的鲁棒性。
- Mixup 在语音和表格数据集上也具有鲁棒性,表明其适用性超出图像分类。
- 消融研究表明,mixup 始终优于替代的插值方案,其中对输入的线性插值和标签的凸组合是提升的关键贡献。
- Mixup 可以通过对判别器梯度的正则化来稳定 GAN 训练,从而提高训练稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。