[论文解读] Robust Neural Networks using Randomized Adversarial Training
本文提出随机对抗训练(RAT),一种将 $ε$-有界对抗训练与随机噪声注入相结合的方法,以防御神经网络在 $ε$-有界 $ℓ_{\infty}$ 和 $ℓ_2$ 对抗攻击下的威胁。RAT 通过结合对抗训练与随机平滑的优势,实现了卓越的鲁棒性——在强 C&W 攻击下仍保持 0.39 的测试准确率,优于在 Wide-ResNet 28-10 上的现有混合防御策略,在 CIFAR-10 上表现更优。
This paper tackles the problem of defending a neural network against adversarial attacks crafted with different norms (in particular $\ell_\infty$ and $\ell_2$ bounded adversarial examples). It has been observed that defense mechanisms designed to protect against one type of attacks often offer poor performance against the other. We show that $\ell_\infty$ defense mechanisms cannot offer good protection against $\ell_2$ attacks and vice-versa, and we provide both theoretical and empirical insights on this phenomenon. Then, we discuss various ways of combining existing defense mechanisms in order to train neural networks robust against both types of attacks. Our experiments show that these new defense mechanisms offer better protection when attacked with both norms.
研究动机与目标
- 解决现有防御方法仅对一种对抗攻击类型(如 $ℓ_{\infty}$ 或 $ℓ_2$)有效而存在的鲁棒性差距。
- 探究结合对抗训练与随机噪声注入是否能生成对多种攻击范数均鲁棒的模型。
- 评估并比较混合防御策略(包括混合对抗训练(MAT)、混合噪声注入(MNI)以及所提出的随机对抗训练(RAT))的性能。
- 为 $ℓ_{\infty}$ 与 $ℓ_2$ 对抗球在高维空间中的不相交性提供理论与实证依据,解释为何单范数防御在应对另一范数时会失效。
提出的方法
- 提出随机对抗训练(RAT),一种训练过程,结合来自 $ℓ_{\infty}$ 与 $ℓ_2$ 范数的对抗样本,并在训练期间注入随机噪声。
- 使用混合训练目标,包含在干净数据上的标准交叉熵损失、在 $ℓ_{\infty}$-有界扰动上的对抗损失,以及在 $ℓ_2$-有界扰动上的对抗损失。
- 在测试时通过变换期望(EOT)应用噪声注入,噪声来自均匀分布与正态分布,以增强鲁棒性。
- 采用 PGD(20 次迭代)与 C&W(60 次迭代)攻击在白盒、非目标设定下进行评估,$ε_{\infty} = 0.031$ 与 $ε_2 = 0.83$,以确保攻击强度强且可比。
- 将 RAT 与 MAT(混合对抗训练)和 MNI(混合噪声注入)进行比较,评估其在多种攻击类型下的鲁棒性。
- 在 CIFAR-10 上使用 Wide-ResNet 28-10,采用标准超参数,使用 4 张 V100 GPU,训练时间长达 2 天以确保收敛。
实验结果
研究问题
- RQ1为何 $ℓ_{\infty}$-防御模型在面对 $ℓ_2$-基于攻击时会失效,反之亦然,尽管扰动体积相似?
- RQ2结合对抗训练与随机噪声注入是否能生成对 $ℓ_{\infty}$ 与 $ℓ_2$ 对抗攻击均鲁棒的模型?
- RQ3不同类型的噪声及其混合如何影响随机防御中的鲁棒性?
- RQ4随机对抗训练(RAT)是否在防御强且最先进的攻击方面优于现有混合防御策略(如 MAT 与 MNI)?
- RQ5在高维输入空间中,$ℓ_{\infty}$ 与 $ℓ_2$ 对抗球重叠性差的几何原因是什么?
主要发现
- $ℓ_{\infty}$ 与 $ℓ_2$ 对抗球在高维空间(如 CIFAR-10)中大部分是不相交的,解释了为何对一种范数有效的防御在应对另一种范数时会失效。
- 混合对抗训练(MAT)对 PGD 攻击提供强防御,但对 C&W 攻击失效,表明其在攻击类型间泛化能力有限。
- 混合噪声注入(MNI)在 C&W 攻击下表现更优,但在 $ℓ_{\infty}$ 范数下对 PGD 攻击的保护作用微弱。
- 随机对抗训练(RAT)在 C&W 攻击下实现了最高的最小鲁棒准确率(0.39),显著优于 MNI(使用正态噪声时为 0.22)与 MAT。
- RAT 结合 $ℓ_{\infty}$-对抗样本与均匀噪声注入,实现了最佳平衡,对两类攻击均具备鲁棒性。
- 理论分析证实,随着维度增加,$ℓ_{\infty}$ 与 $ℓ_2$ 球之间重叠性呈指数级下降,这是单范数防御失效的根本原因。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。