[论文解读] Improving Adversarial Robustness of Ensembles with Diversity Training
本文提出 Diversity Training(DivTrain),通过使用梯度对齐损失(GAL)训练具有不相关损失梯度的集成,以减少共享的对抗子空间并提升基于转移的鲁棒性,可选地与 Ensemble Adversarial Training 结合。
Deep Neural Networks are vulnerable to adversarial attacks even in settings where the attacker has no direct access to the model being attacked. Such attacks usually rely on the principle of transferability, whereby an attack crafted on a surrogate model tends to transfer to the target model. We show that an ensemble of models with misaligned loss gradients can provide an effective defense against transfer-based attacks. Our key insight is that an adversarial example is less likely to fool multiple models in the ensemble if their loss functions do not increase in a correlated fashion. To this end, we propose Diversity Training, a novel method to train an ensemble of models with uncorrelated loss functions. We show that our method significantly improves the adversarial robustness of ensembles and can also be combined with existing methods to create a stronger defense.
研究动机与目标
- 推动在面对转移型(黑盒)攻击时对深度网络的鲁棒部署;
- 提出一个可微分的度量,用以量化集成中对抗子空间的重叠;
- 引入 Gradient Alignment Loss (GAL) 作为正则化项,用以训练多样化的集成;
- 证明 DivTrain 能降低共享对抗子空间并提高鲁棒性,可能与现有防御结合使用;
- 展示将 DivTrain 与其他防御方法结合时能够获得更强的保护效果。
提出的方法
- 定义对抗子空间以及针对集成的转移性威胁模型;
- 提出 Gradient Alignment Loss (GAL) 通过对相干性的平滑近似来量化集成成员之间的梯度对齐;
- 将 GAL 作为正则化项对集成进行训练:Loss = 平均交叉熵 + lambda * GAL;
- 使用 Leaky-ReLU 以缓解 GAL 计算中的梯度稀疏问题;
- 在 MNIST 和 CIFAR-10 上针对多种黑箱攻击(FGSM、R-FGSM、I-FGSM、MI-FGSM、PGD-CW)评估 DivTrain;
- 证明 DivTrain 降低梯度相干性和减少对抗子空间重叠,并在与 Ensemble Adversarial Training 结合时提升鲁棒性。
实验结果
研究问题
- RQ1降低集成成员对抗子空间的重叠是否能够提升对转移型攻击的鲁棒性?
- RQ2是否可以将梯度对齐(GAL)用作可微分正则化项,以训练多样化的集成?
- RQ3DivTrain 如何与现有防御方法如 Ensemble Adversarial Training 相互作用?
- RQ4梯度稀疏性对 GAL 的影响以及如何通过激活函数选择来缓解?
主要发现
- 通过 GAL 训练的多样化集成在所有评估的攻击下对对抗样本的准确率高于基线集成;
- 将 DivTrain 与 Ensemble Adversarial Training 结合时比任一方法单独使用获得更强的鲁棒性;
- DivTrain 与 DivTrain+EnsAdvTrain 相比基线/Ens 集成表现出更低的相干性(梯度对齐),表明对抗子空间的重叠减少;
- GAAS 分析显示 DivTrain 降低了集成对抗子空间的维数,降低发现多条正交对抗方向的可能性;
- 使用 Leaky-ReLU 可缓解妨碍 GAL 反向传播的梯度稀疏问题;
- DivTrain 在可控的 lambda 调整下,保持与干净数据准确率的竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。