[论文解读] Defending against Whitebox Adversarial Attacks via Randomized Discretization
本文提出随机离散化(RandDisc),一种白盒防御方法,通过在分类前向图像像素注入高斯噪声并将其离散化为聚类中心,实现对ImageNet上强PGD攻击的最先进鲁棒性,平均优于对抗训练模型和NIPS 2017竞赛中的顶尖防御方法至少18%,最坏情况下优于35%。
Adversarial perturbations dramatically decrease the accuracy of state-of-the-art image classifiers. In this paper, we propose and analyze a simple and computationally efficient defense strategy: inject random Gaussian noise, discretize each pixel, and then feed the result into any pre-trained classifier. Theoretically, we show that our randomized discretization strategy reduces the KL divergence between original and adversarial inputs, leading to a lower bound on the classification accuracy of any classifier against any (potentially whitebox) $\\ell_\\infty$-bounded adversarial attack. Empirically, we evaluate our defense on adversarial examples generated by a strong iterative PGD attack. On ImageNet, our defense is more robust than adversarially-trained networks and the winning defenses of the NIPS 2017 Adversarial Attacks & Defenses competition.
研究动机与目标
- 开发一种无需微调预训练模型的白盒对抗攻击防御方法。
- 基于信息论提供理论支撑的鲁棒性证书,利用KL散度减少。
- 在大规模数据集(如ImageNet)上,通过强迭代攻击(如PGD)实证评估该防御的鲁棒性。
- 证明随机防御在ImageNet上可实现优于对抗训练模型的鲁棒性。
- 展示随机离散化可在不进行模型微调的情况下提升鲁棒性,同时保持高干净图像准确率。
提出的方法
- 向输入图像的每个像素注入均值为零的高斯噪声,以随机化输入分布。
- 应用基于聚类的离散化步骤,将每个像素映射到颜色空间(如Lab空间)中最近的聚类中心。
- 将随机化且离散化的图像输入任意预训练分类器,无需微调。
- 使用可微近似方法——随机混合(RandMix)生成对抗样本,以评估非可微的RandDisc防御。
- 理论分析表明,RandDisc可减少干净输入与对抗输入之间的KL散度,从而提供鲁棒准确率的下界。
- 通过迭代PGD攻击评估该防御,并与对抗训练模型及其他基于变换的防御方法在MNIST和ImageNet上进行比较。
实验结果
研究问题
- RQ1一种无需微调的防御方法能否在ImageNet上实现对白盒对抗攻击的强鲁棒性?
- RQ2随机离散化是否能减少干净输入与对抗输入之间的KL散度,从而实现鲁棒性认证?
- RQ3在强PGD攻击下,RandDisc与对抗训练模型及NIPS 2017竞赛中的顶尖防御方法相比表现如何?
- RQ4为何RandDisc在ImageNet上提升鲁棒性,而在MNIST上其他随机防御方法失败?
- RQ5随机防御能否在高分辨率图像(如ImageNet)上提供非平凡的认证准确率边界?
主要发现
- 在ImageNet上,当ε = 1、2、4时,RandDisc在PGD攻击下的准确率分别为62.9%、54.2%和39.5%,优于对抗训练的InceptionResNet模型。
- 在NIPS 2017竞赛中排名前三的攻击(ε = 8)下,RandDisc平均优于前三名防御方法至少18%,最坏情况下优于35%。
- 在MNIST上,RandDisc结合普通CNN在ε = 0.1时达到94.4%的鲁棒准确率,而原始模型仅为12.0%。
- 由于高分辨率图像中KL散度边界的累积效应,RandDisc的认证准确率仅对极小扰动(ε < 0.1)为非平凡值。
- 在ImageNet上,RandDisc的鲁棒性优于对抗训练模型,表明后者在强迭代攻击下可能效果较差。
- RandDisc(88.6%)和RandMix(92.7%)的干净图像准确率低于基线分类器(97.1%),表明鲁棒性与干净准确率之间存在权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。