[论文解读] The Odds are Odd: A Statistical Test for Detecting Adversarial Examples
本文提出了一种基于对数似然比对随机噪声鲁棒性的统计检验方法,用于检测和校正深度神经网络中的对抗样本。通过分析扰动在噪声下对特征表示和对数似然比的影响,该方法在CIFAR-10和ImageNet上实现了99%的检测率(FPR < 1%),即使面对具备防御意识的攻击者也有效,且在修正后对对抗样本的准确率达到92%。
We investigate conditions under which test statistics exist that can reliably detect examples, which have been adversarially manipulated in a white-box attack. These statistics can be easily computed and calibrated by randomly corrupting inputs. They exploit certain anomalies that adversarial attacks introduce, in particular if they follow the paradigm of choosing perturbations optimally under p-norm constraints. Access to the log-odds is the only requirement to defend models. We justify our approach empirically, but also provide conditions under which detectability via the suggested test statistics is guaranteed to be effective. In our experiments, we show that it is even possible to correct test time predictions for adversarial attacks with high accuracy.
研究动机与目标
- 开发一种可靠且高效的对抗样本检测方法,无需访问模型架构或梯度信息。
- 识别由最优p-范数约束攻击引发的对抗扰动中固有的统计异常。
- 通过利用噪声诱导的对数似然比稳定性,实现对误分类对抗预测的校正。
- 评估对具备防御意识的攻击者(其攻击策略会主动规避检测)的鲁棒性。
提出的方法
- 该方法基于随机输入噪声下对数似然比的方差计算检验统计量,利用对抗扰动在特征空间中引起的定向异常。
- 它使用在干净样本和对抗样本的对数似然比统计量上训练的二级逻辑分类器,以区分自然输入与扰动输入。
- 防御机制通过输入的随机噪声污染进行校准,无需模型梯度或架构访问。
- 该方法基于一个核心洞察:对抗扰动在噪声下会在特征空间中引起非随机的、具有方向性的变化,而自然输入则不会。
- 该方法对迁移性具有鲁棒性,因为它仅依赖于对数似然比和噪声下特征表示的稳定性。
- 通过在噪声鲁棒的对数似然比上重新评估模型,该方法可实现预测校正,以高准确率恢复原始类别。
实验结果
研究问题
- RQ1能否仅通过随机噪声下的对数似然比统计量可靠地检测对抗样本?
- RQ2对抗扰动是否会在特征表示中引发在自然输入中不存在的特征性方向异常?
- RQ3当攻击者知晓防御机制时,该检测方法是否仍保持有效性?
- RQ4是否可以利用所提出的统计检验方法以高准确率校正对抗预测?
- RQ5与最先进的检测基线方法(如特征压缩和dropout不确定性)相比,该方法表现如何?
主要发现
- 在CIFAR-10上,面对L∞-PGD攻击,该方法实现了99%的检测率,FPR < 1%,在干净样本上保持96%的准确率,在对抗样本上达到92%的准确率。
- 在ImageNet上,检测率达到了99%,FPR为1%,表明其在不同数据集间具有强大的泛化能力。
- 面对使用L2-PGD和L2-Carlini-Wagner攻击的防御意识攻击者,该方法的检测率保持在71.4%–81.3%之间,校正后准确率在56%–56.6%之间。
- 与特征压缩(DenseNet)相比,该方法在L∞-PGD攻击下检测率达到99%(对比基线的55%),且在对抗样本上的校正准确率达到92%(对比基线的56%)。
- 与dropout不确定性(Feinman et al., 2017)相比,该方法在防御意识的L2-CW攻击下实现了71.4%的检测率,显著优于基线方法2%的检测率。
- 即使攻击者优化扰动时使用与检测阶段相同的噪声分布,该方法仍保持有效性,表明其对自适应攻击具有强韧性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。