[论文解读] Understanding and Improving Ensemble Adversarial Defense
该论文提出了一种新的集成对抗防御错误理论,并引入交互式全局对抗训练(iGAT)以提升集成鲁棒性,在 CIFAR-10/100 上在白盒和黑盒攻击下实现了约 17% 的性能提升。
The strategy of ensemble has become popular in adversarial defense, which trains multiple base classifiers to defend against adversarial attacks in a cooperative manner. Despite the empirical success, theoretical explanations on why an ensemble of adversarially trained classifiers is more robust than single ones remain unclear. To fill in this gap, we develop a new error theory dedicated to understanding ensemble adversarial defense, demonstrating a provable 0-1 loss reduction on challenging sample sets in an adversarial defense scenario. Guided by this theory, we propose an effective approach to improve ensemble adversarial defense, named interactive global adversarial training (iGAT). The proposal includes (1) a probabilistic distributing rule that selectively allocates to different base classifiers adversarial examples that are globally challenging to the ensemble, and (2) a regularization term to rescue the severest weaknesses of the base classifiers. Being tested over various existing ensemble adversarial defense techniques, iGAT is capable of boosting their performance by increases up to 17% evaluated using CIFAR10 and CIFAR100 datasets under both white-box and black-box attacks.
研究动机与目标
- 动机化并形式化为什么经过对抗训练的分类器集合比单一模型更具鲁棒性。
- 为面向具有挑战性样本集合的集成对抗防御建立错误理论框架。
- 提出 iGAT,通过分发全局对抗样本和错分正则化来增强集成。
- 在 CIFAR-10/100 上对比现有集成防御,在多种攻击下实现实证改进(最高约 17%)。
提出的方法
- 给出一个误差削减结果(定理 4.1),显示两基 MLP 集成在平均器或最大汇聚下的鲁棒性提升。
- 定义模糊对和模糊对集合以捕捉位于决策边界区域的具有挑战性样本(定义 4.3,假设 4.2 与 4.4)。
- 引入 iGAT,通过硬分发或软分发规则(式 13 和 式 14)将全局生成的对抗样本分发给基分类器。
- 添加一个正则化项 L_R,针对基分类器之间输出中最易错的部分来加强最脆弱之处(式 15)。
- 提供一个增强的训练目标,将原始集成损失与全局对抗损失(α)以及错分正则化项(β)结合,如式(16)所示。
- 演示与现有集成防御(ADP、CLDL、DVERGE、SoE、GAL、TRS)兼容,并在实验中对基于 PGD 的对抗训练进行应用。
实验结果
研究问题
- RQ1在对抗设置中,为什么经过对抗训练的分类器集合相较单一模型具有可证明的鲁棒性优势?
- RQ2是否可以通过对全局生成的对抗样本进行原则性的分布并进行定向正则化来实质性提升集成内的基分类器?
- RQ3在 CIFAR-10/100 上,对 iGAT 相对于最先进的集成防御,在白盒和黑盒攻击下能提供多少提升?
主要发现
- 一套错误理论为集成防御在具有挑战性样本集上的 0-1 损失提供了可证的下降。
- 将 iGAT 应用于前沿集成方法时,带来明确的鲁棒性提升(在 CIFAR-10/100 上最高约 17%)。
- 分发的全局对抗样本和正则化项能够有效针对集成中表现最差的基分类器。
- 实证结果显示在多种集成骨干和聚合方式(平均和最大)下,对白盒和黑盒攻击均有改进。
- 该方法与多种现有集成防御(包括 ADP、CLDL、DVERGE、SoE、GAL、TRS)兼容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。