[论文解读] Towards Imperceptible and Robust Adversarial Example Attacks against Neural Networks
本文提出了一种新型对抗性攻击方法,通过建模人类视觉敏感度并最大化噪声容忍度,同时提升了不可察觉性和鲁棒性。通过引入一种感知感知距离度量和一种贪心优化策略,该方法在物理世界失真下实现了更优的鲁棒性——在强高斯噪声下(标准差=0.25),成功率相比FGSM、JSMA和L-BFGS最高提升36%(62% vs. 21.5%)。
Machine learning systems based on deep neural networks, being able to produce state-of-the-art results on various perception tasks, have gained mainstream adoption in many applications. However, they are shown to be vulnerable to adversarial example attack, which generates malicious output by adding slight perturbations to the input. Previous adversarial example crafting methods, however, use simple metrics to evaluate the distances between the original examples and the adversarial ones, which could be easily detected by human eyes. In addition, these attacks are often not robust due to the inevitable noises and deviation in the physical world. In this work, we present a new adversarial example attack crafting method, which takes the human perceptual system into consideration and maximizes the noise tolerance of the crafted adversarial example. Experimental results demonstrate the efficacy of the proposed technique.
研究动机与目标
- 解决现有对抗性攻击方法依赖简单Lp-范数距离度量的问题,这些方法未考虑人类视觉感知,因而产生容易被察觉的扰动。
- 提升对抗性样本在物理世界中的鲁棒性,其中噪声、压缩和变换会降低攻击成功率。
- 开发一种适用于多种神经网络应用的通用攻击框架,克服现有应用特定方法的局限性。
- 通过在扰动位置上平衡感知敏感度与噪声容忍度,同时优化不可察觉性和鲁棒性。
提出的方法
- 提出一种新的感知距离度量,建模人类对像素扰动的敏感度,为高方差区域分配更高的容忍度,对均匀区域则降低敏感度。
- 制定一个优化目标,以最大化目标类别与第二高概率类别之间的置信度差距,从而增强攻击成功率和鲁棒性。
- 提出一种贪心算法,选择具有高感知容忍度的像素,并施加最优幅度的扰动,以最大化抗噪能力同时保持不可察觉性。
- 将鲁棒性度量定义为在物理变换(如JPEG压缩、高斯噪声、模糊、亮度/对比度变化)后仍保持误分类的对抗性样本比例。
- 使用复合变换函数 $Tran(*)$ 模拟真实世界失真,并在各种物理条件下评估成功率。
- 在CIFAR-10和MNIST数据集上应用该方法,采用相同的评估协议与FGSM、JSMA和L-BFGS进行性能比较。
实验结果
研究问题
- RQ1感知感知距离度量是否能相比标准Lp-范数,提升对抗性样本的不可察觉性?
- RQ2优化噪声容忍度如何影响对抗性样本在JPEG压缩和高斯噪声等物理世界失真下的鲁棒性?
- RQ3所提出的方法在多种图像变换下,与现有攻击方法(如FGSM、JSMA、L-BFGS)相比,在不可察觉性和鲁棒性方面优势有多大?
- RQ4所提出的方法是否具有跨不同神经网络应用的泛化能力,还是仅限于特定用例(如人脸或交通标志识别)?
- RQ5感知不可察觉性与鲁棒性之间的权衡是什么?能否通过统一的优化框架同时最大化两者?
主要发现
- 在标准差为0.05的高斯噪声下,该方法的成功率达到98.5%,优于JSMA(98.25%)、L-BFGS(86.8%)和FGSM(82.5%)。
- 在最高噪声水平(std=0.25)下,该方法仍保持62%的成功率,显著优于FGSM(21.5%)、L-BFGS(28.6%)和JSMA(33.2%)。
- 在JPEG压缩下,该方法的成功率为76%,而FGSM仅为52.3%,表明其在有损压缩下具有更强的鲁棒性。
- 随着噪声强度增加,该方法的鲁棒性优势进一步提升,表明其噪声容忍度优化有效。
- 尽管在人类感知实验中排名第二,JSMA因使用更大、更稀疏的扰动,在抗噪性方面表现更优。
- 该方法成功平衡了不可察觉性与鲁棒性,在无需特定应用调优的情况下,于多种物理世界变换中实现了最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。