[论文解读] Adversarial Examples Are a Natural Consequence of Test Error in Noise
论文认为对高斯噪声下非零测试误差自然产生对抗样本,将对抗鲁棒性与腐蚀鲁棒性联系起来,并建议与 Imagenet-C 这样的分布变化基准联合评估。
Over the last few years, the phenomenon of adversarial examples --- maliciously constructed inputs that fool trained machine learning models --- has captured the attention of the research community, especially when the adversary is restricted to small modifications of a correctly handled input. Less surprisingly, image classifiers also lack human-level performance on randomly corrupted images, such as images with additive Gaussian noise. In this paper we provide both empirical and theoretical evidence that these are two manifestations of the same underlying phenomenon, establishing close connections between the adversarial robustness and corruption robustness research programs. This suggests that improving adversarial robustness should go hand in hand with improving performance in the presence of more general and realistic image corruptions. Based on our results we recommend that future adversarial defenses consider evaluating the robustness of their methods to distributional shift with benchmarks such as Imagenet-C.
研究动机与目标
- 激发对抗鲁棒性与腐蚀鲁棒性在嘈杂/受损图像分布下的联系。
- 表征在高斯噪声下分类器的误差集合,并将其与小的对抗扰动联系起来。
- 展示对抗鲁棒性的改进如何影响腐蚀鲁棒性,反之亦然。
- 提供在对抗指标之外,使用腐蚀基准评估防御的实际指南。
提出的方法
- 在干净和受损输入下定义并分析分类器的误差集合 E。
- 通过到 E 的距离和噪声尺度参数,将在高斯噪声下的腐蚀鲁棒性与对抗鲁棒性联系起来。
- 利用线性模型直觉推导出关系 d(x0,E) ≈ -sigma Phi^{-1}(mu),将到决策边界的距离与高斯噪声误差率 mu 联系起来。
- 在 CIFAR-10 和 ImageNet 上对普通训练、Gaussian 增强和对抗性训练的模型进行经验比较。
- 应用高斯等周不等式以界定中位数距离最近误差的距离,作为噪声水平和误差率的函数。
- 在 Imagenet-C 上评估腐蚀鲁棒性,并比较内存中的损坏与压缩损坏,以评估脆弱性和防御效果。

实验结果
研究问题
- RQ1在观察到的高斯噪声误差率下,对抗样本是否必然存在于靠近干净输入的较小距离处?
- RQ2在不同训练模式(自然、Gaussian 增强、对抗性训练)下,高斯扰动下的腐蚀鲁棒性与对抗鲁棒性之间有何关系?
- RQ3等周界界能否在现实噪声分布下有意义地解释对抗样本与干净数据的接近程度?
- RQ4提高对抗鲁棒性的防御是否也提升腐蚀鲁棒性,反之亦然?
- RQ5常见腐蚀基准(Imagenet-C)对评估对抗防御有什么影响?
主要发现
- 在高斯噪声下,对抗样本出现在半空间误差模型预测的距离处,意味着不需要奇特的决策边界来解释微小扰动。
- 通过对抗性训练提高对抗鲁棒性也提高对高斯噪声的鲁棒性,而高斯增强主要增加对噪声的鲁棒性,在一定程度上也增加对小扰动的鲁棒性。
- 高斯等周不等性表明,对于给定的非零高斯噪声误差率,最近误差的中位距离被 -sigma Phi^{-1}(mu) 所界定,半空间时等号,与经验观察一致。
- 在高斯噪声下具有更高误差率的模型,其附近的误差更近,最鲁棒的模型趋向于半空间样的误差集合,与线性直觉一致。
- 对抗性训练和高斯增强都提高腐蚀鲁棒性,并可能改变在不同腐蚀类型(如模糊、噪声、雾、对比度)上的鲁棒性分布。
- 腐蚀鲁棒性基准(Imagenet-C)显示防御在压缩损坏与内存损坏下的表现可能不同,突显在分布变化下的脆弱性以及跨评估的价值。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。