[论文解读] Confidence-Calibrated Adversarial Training and Detection: More Robust Models Generalizing Beyond the Attack Used During Training
本文提出置信度校准对抗训练(CCAT),通过使模型预测置信度随对抗样本与原始输入的距离而衰减,从而提升模型鲁棒性,并实现通过置信度阈值化进行有效检测。与标准对抗训练不同,CCAT在未见过的更强攻击和多样化威胁模型下仍能保持鲁棒性泛化,同时在保持较高自然准确率的同时,实现超越训练攻击的优越泛化能力。
Adversarial training is the standard to train models robust against adversarial examples. However, especially for complex datasets, adversarial training incurs a significant loss in accuracy and is known to generalize poorly to stronger attacks, e.g., larger perturbations or other threat models. In this paper, we introduce confidence-calibrated adversarial training (CCAT) where the key idea is to enforce that the confidence on adversarial examples decays with their distance to the attacked examples. We show that CCAT preserves better the accuracy of normal training while robustness against adversarial examples is achieved via confidence thresholding, i.e., detecting adversarial examples based on their confidence. Most importantly, in strong contrast to adversarial training, the robustness of CCAT generalizes to larger perturbations and other threat models, not encountered during training. For evaluation, we extend the commonly used robust test error to our detection setting, present an adaptive attack with backtracking and allow the attacker to select, per test example, the worst-case adversarial example from multiple black- and white-box attacks. We present experimental results using $L_\\infty$, $L_2$, $L_1$ and $L_0$ attacks on MNIST, SVHN and Cifar10.
研究动机与目标
- 为解决对抗训练在更强或未见过的攻击(如更大扰动或不同威胁模型)下泛化能力差的问题。
- 在鲁棒训练过程中保持高自然准确率,避免标准对抗训练中常见的准确率下降。
- 开发一种基于置信度衰减的检测机制,无需为每种新攻击类型重新训练即可识别对抗样本。
- 评估在结合多种黑白盒策略的自适应、示例特定攻击下的鲁棒性。
- 将鲁棒测试误差指标扩展至包含在现实自适应威胁设置下的检测性能。
提出的方法
- 引入置信度校准,使模型在对抗样本上的置信度随其与干净输入的扰动距离单调递减。
- 使用一种惩罚对抗样本高置信度(尤其是距离原始输入较远的样本)的损失函数,训练模型。
- 在推理阶段应用置信度阈值化:若模型置信度低于学习到的阈值,则将输入分类为对抗样本。
- 使用多步自适应攻击并结合回溯机制,从多种攻击类型(黑白盒)中为每个测试输入选择最坏情况的对抗样本。
- 将标准鲁棒测试误差扩展为包含检测性能,衡量在自适应攻击下的误分类率和误报率。
- 在 MNIST、SVHN 和 CIFAR-10 数据集上评估 $L_\infty$、$L_2$、$L_1$ 和 $L_0$ 扰动下的表现。
实验结果
研究问题
- RQ1置信度校准能否提升鲁棒模型在训练期间未见的更强攻击下的泛化能力?
- RQ2置信度阈值化是否能在不损害自然准确率的前提下实现对抗样本的有效检测?
- RQ3CCAT 在结合多种攻击策略并为每个输入选择最坏情况样本的自适应攻击下表现如何?
- RQ4与标准对抗训练相比,CCAT 在自然准确率方面保持多高的水平?
- RQ5置信度衰减机制是否能在包括 $L_1$、$L_0$ 和 $L_2$ 攻击在内的多样化威胁模型下带来更好的鲁棒性?
主要发现
- CCAT 在 MNIST、SVHN 和 CIFAR-10 上的自然准确率高于标准对抗训练,且在干净数据上的性能下降可忽略。
- 鲁棒性在未用于训练的更大 $L_\infty$ 扰动及其他威胁模型(如 $L_2$、$L_1$、$L_0$)下有效泛化。
- 置信度阈值化机制在自适应攻击下仍能以高检测率成功识别对抗样本,即使攻击结合了多种类型。
- 在自适应攻击下,CCAT 在鲁棒性方面优于标准对抗训练,尤其显著降低了最坏情况对抗样本的成功率。
- 该方法在多种数据集和扰动类型下均保持强性能,展现出广泛的泛化能力。
- 置信度衰减机制与对抗距离高度相关,验证了 CCAT 核心设计原则的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。