[论文解读] Confidence-Calibrated Adversarial Training: Generalizing to Unseen Attacks
CCAT 将对抗性样本的预测偏向低置信度,并使用置信度阈值来拒绝它们,从而实现对超出训练威胁模型的未见攻击的鲁棒性。
Adversarial training yields robust models against a specific threat model, e.g., $L_\infty$ adversarial examples. Typically robustness does not generalize to previously unseen threat models, e.g., other $L_p$ norms, or larger perturbations. Our confidence-calibrated adversarial training (CCAT) tackles this problem by biasing the model towards low confidence predictions on adversarial examples. By allowing to reject examples with low confidence, robustness generalizes beyond the threat model employed during training. CCAT, trained only on $L_\infty$ adversarial examples, increases robustness against larger $L_\infty$, $L_2$, $L_1$ and $L_0$ attacks, adversarial frames, distal adversarial examples and corrupted examples and yields better clean accuracy compared to adversarial training. For thorough evaluation we developed novel white- and black-box attacks directly attacking CCAT by maximizing confidence. For each threat model, we use $7$ attacks with up to $50$ restarts and $5000$ iterations and report worst-case robust test error, extended to our confidence-thresholded setting, across all attacks.
研究动机与目标
- 推动对超过单一威胁模型(如 L_infinity)具有泛化能力的鲁棒分类器。
- 制定训练目标以减少对对抗性样本的过度自信,从而实现对未见攻击的外插。
- 通过置信度阈值设置实现拒绝选项,在不牺牲干净精度的情况下维持鲁棒性。
提出的方法
- 引入 CCAT,其以一热向量(用于干净样本/在已见球内的对抗样本)与均匀分布(用于对抗样本)的凸组合作为目标标签进行训练。
- 在训练中使用一种自适应攻击,最大化任何非真类的置信度以生成具有挑战性的对抗样本(Eq. 4)。
- 定义一个与置信度相关的跃迁函数 lambda(delta),其随扰动范数增大而从 1 衰减至 0,使距离增加时目标分布趋于均匀(Eq. 6)。
- 强制实现幂转变方案,使当扰动达到或超过训练 epsilon 时 lambda 变为 0,鼓励超越训练球的外推。
- 按批次进行 50/50 的干净样本和对抗样本混合训练,如标准 AT 设置,以在鲁棒性和准确性之间取得平衡。
- 使用置信度阈值度量评估鲁棒性,并开发明确最大化置信度的自适应白盒/黑盒攻击(包括在 CCAT 框架内)。
实验结果
研究问题
- RQ1通过 CCAT 的置信度校准,是否能够对训练中未出现的未见对抗威胁实现鲁棒性?
- RQ2在训练球内对对抗样本强制低置信度,是否能改善对更大扰动、其他 L_p 范数和被污染输入的外推?
- RQ3在允许拒绝选项时,CCAT 的性能与标准对抗训练和 TRADES 相比如何?
- RQ4在测试时应用置信度阈值时,能否在不牺牲干净精度的情况下实现鲁棒性?
主要发现
- 与标准 AT 相比,CCAT 在对未知攻击(不同的 L_p 范数、较大扰动)上的鲁棒性得到提升,同时保持或提高干净精度。
- 在带有置信度阈值的 CCAT 下,鲁棒性扩展到对抗性帧、远端对抗样本和被污染输入。
- 通过置信度阈值实现的拒绝选项允许丢弃低置信度的对抗性输入,有助于超过训练威胁模型的鲁棒性。
- 使用自适应、最大化置信度的攻击来评估 CCAT 的韧性;在逐样本最坏情景评估下,CCAT 仍更难被破解。
- 在 MNIST、SVHN、CIFAR-10 及受损变体上的实验显示 CCAT 相对于 AT、TRADES 以及多威胁模型训练的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。