[论文解读] Instance adaptive adversarial training: Improved accuracy tradeoffs in neural nets
本论文提出实例自适应对抗训练(IAAT),在训练过程中为每个样本分配扰动半径,以在保持可比鲁棒性的同时提高干净准确率,已在 CIFAR-10/100 和 ImageNet 上验证。
Adversarial training is by far the most successful strategy for improving robustness of neural networks to adversarial attacks. Despite its success as a defense mechanism, adversarial training fails to generalize well to unperturbed test set. We hypothesize that this poor generalization is a consequence of adversarial training with uniform perturbation radius around every training sample. Samples close to decision boundary can be morphed into a different class under a small perturbation budget, and enforcing large margins around these samples produce poor decision boundaries that generalize poorly. Motivated by this hypothesis, we propose instance adaptive adversarial training -- a technique that enforces sample-specific perturbation margins around every training sample. We show that using our approach, test accuracy on unperturbed samples improve with a marginal drop in robustness. Extensive experiments on CIFAR-10, CIFAR-100 and Imagenet datasets demonstrate the effectiveness of our proposed approach.
研究动机与目标
- 动机:在标准对抗训练中强调鲁棒性与准确性之间的权衡及其因统一扰动半径而存在的局限性。
- 提出 IAAT,通过为每个样本分配扰动半径来更好地保持干净准确率,同时维持鲁棒性。
- 通过实证结果表明,在数据集 CIFAR-10/100、ImageNet 上,IAAT 可以在鲁棒性损失很小的情况下提升自然测试准确率。
- 提供可解释性洞见:较小的半径与边界模糊和附近的冲突样本相关;较大半径与清晰的类别相关。
- 将 IAAT 与先前的自适应边距工作进行比较,并分析在一系列测试扰动下的鲁棒性。
提出的方法
- 将 IAAT 表述为带有逐样本扰动预算的极小-极大目标:min_theta max_{||delta_i||_infty <= epsilon_i} Loss( x_i + delta_i, y_i ).
- 在初始阶段使用统一的 epsilon 进行热身,然后切换为逐样本 epsilon。
- 在为每个样本设计对抗样本后,根据 PGD 是否成功来调整 epsilon_i(若成功则 epsilon_i--,若失败则 epsilon_i++),并通过内存机制在若干轮中平滑处理。
- 算法1 给出在对抗样本生成和参数更新之间交替的训练循环。
- 算法2 通过对先前值周围进行离散搜索来更新并稳定逐样本 epsilon。
- 该方法强调在类别流形分离较好处选择较大半径,在决策边界附近选择较小半径,从而获得更优的权衡。
- 实验包括在 CIFAR-10/100 上使用 ResNet 与 WideResNet 架构,以及在 ImageNet 上使用 ResNet 变体,评估自然准确率、白盒鲁棒性及迁移鲁棒性,以及污染鲁棒性。
实验结果
研究问题
- RQ1在固定鲁棒水平下,强制逐样本对抗半径是否能相比标准的统一半径对抗训练提高干净准确率?
- RQ2IAAT 能否打破标准对抗训练中观察到的传统鲁棒性-准确性帕累托前沿?
- RQ3学习到的逐样本半径相对于数据模糊性和类别边界有多可解释?
- RQ4IAAT 的增益是否在数据集(CIFAR-10/100、ImageNet)和架构之间具有普遍性?
- RQ5热身阶段和逐样本半径动态对未知污染鲁棒性有何影响?
主要发现
- IAAT 在与标准对抗训练可比的鲁棒性下提升 CIFAR-10/100 的自然测试准确率(例如:在对抗鲁棒性相近或略有下降的情况下,获得显著的干净准确率提升)。
- IAAT 提供对未见图像污染的鲁棒性,表明泛化能力提高。
- 在 ImageNet 上,IAAT 在 ResNet 模型上显著提高自然准确率(比对抗训练高出 +10% 以上),并在较低扰动强度下维持有竞争力的对抗鲁棒性,较高 epsilon 时存在一些权衡。
- 逐样本 epsilon 与人类对模糊性的认知相关:边界附近的样本接收较小的 epsilon,而不含糊样本接收较大的 epsilon。
- 热身提高鲁棒性但自然准确率略有下降,且无热身的 IAAT 也显示出改进的权衡,在 CIFAR-100 上热身通常对鲁棒性帮助更大。
- 在更强的攻击下,IAAT 或许优于 Mixup-对抗训练,保持鲁棒性同时保留自然准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。