Skip to main content
QUICK REVIEW

[论文解读] Defending against Whitebox Adversarial Attacks via Randomized Discretization

Yuchen Zhang, Percy Liang|arXiv (Cornell University)|Mar 25, 2019
Adversarial Robustness in Machine Learning参考文献 39被引用 27
一句话总结

本文提出随机离散化(RandDisc),一种白盒防御方法,通过在分类前向图像像素注入高斯噪声并将其离散化为聚类中心,实现对ImageNet上强PGD攻击的最先进鲁棒性,平均优于对抗训练模型和NIPS 2017竞赛中的顶尖防御方法至少18%,最坏情况下优于35%。

ABSTRACT

Adversarial perturbations dramatically decrease the accuracy of state-of-the-art image classifiers. In this paper, we propose and analyze a simple and computationally efficient defense strategy: inject random Gaussian noise, discretize each pixel, and then feed the result into any pre-trained classifier. Theoretically, we show that our randomized discretization strategy reduces the KL divergence between original and adversarial inputs, leading to a lower bound on the classification accuracy of any classifier against any (potentially whitebox) $\\ell_\\infty$-bounded adversarial attack. Empirically, we evaluate our defense on adversarial examples generated by a strong iterative PGD attack. On ImageNet, our defense is more robust than adversarially-trained networks and the winning defenses of the NIPS 2017 Adversarial Attacks & Defenses competition.

研究动机与目标

  • 开发一种无需微调预训练模型的白盒对抗攻击防御方法。
  • 基于信息论提供理论支撑的鲁棒性证书,利用KL散度减少。
  • 在大规模数据集(如ImageNet)上,通过强迭代攻击(如PGD)实证评估该防御的鲁棒性。
  • 证明随机防御在ImageNet上可实现优于对抗训练模型的鲁棒性。
  • 展示随机离散化可在不进行模型微调的情况下提升鲁棒性,同时保持高干净图像准确率。

提出的方法

  • 向输入图像的每个像素注入均值为零的高斯噪声,以随机化输入分布。
  • 应用基于聚类的离散化步骤,将每个像素映射到颜色空间(如Lab空间)中最近的聚类中心。
  • 将随机化且离散化的图像输入任意预训练分类器,无需微调。
  • 使用可微近似方法——随机混合(RandMix)生成对抗样本,以评估非可微的RandDisc防御。
  • 理论分析表明,RandDisc可减少干净输入与对抗输入之间的KL散度,从而提供鲁棒准确率的下界。
  • 通过迭代PGD攻击评估该防御,并与对抗训练模型及其他基于变换的防御方法在MNIST和ImageNet上进行比较。

实验结果

研究问题

  • RQ1一种无需微调的防御方法能否在ImageNet上实现对白盒对抗攻击的强鲁棒性?
  • RQ2随机离散化是否能减少干净输入与对抗输入之间的KL散度,从而实现鲁棒性认证?
  • RQ3在强PGD攻击下,RandDisc与对抗训练模型及NIPS 2017竞赛中的顶尖防御方法相比表现如何?
  • RQ4为何RandDisc在ImageNet上提升鲁棒性,而在MNIST上其他随机防御方法失败?
  • RQ5随机防御能否在高分辨率图像(如ImageNet)上提供非平凡的认证准确率边界?

主要发现

  • 在ImageNet上,当ε = 1、2、4时,RandDisc在PGD攻击下的准确率分别为62.9%、54.2%和39.5%,优于对抗训练的InceptionResNet模型。
  • 在NIPS 2017竞赛中排名前三的攻击(ε = 8)下,RandDisc平均优于前三名防御方法至少18%,最坏情况下优于35%。
  • 在MNIST上,RandDisc结合普通CNN在ε = 0.1时达到94.4%的鲁棒准确率,而原始模型仅为12.0%。
  • 由于高分辨率图像中KL散度边界的累积效应,RandDisc的认证准确率仅对极小扰动(ε < 0.1)为非平凡值。
  • 在ImageNet上,RandDisc的鲁棒性优于对抗训练模型,表明后者在强迭代攻击下可能效果较差。
  • RandDisc(88.6%)和RandMix(92.7%)的干净图像准确率低于基线分类器(97.1%),表明鲁棒性与干净准确率之间存在权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。