QUICK REVIEW

[论文解读] Defending against Whitebox Adversarial Attacks via Randomized Discretization

Yuchen Zhang, Percy Liang|arXiv (Cornell University)|Mar 25, 2019

Adversarial Robustness in Machine Learning参考文献 39被引用 27

一句话总结

本文提出随机离散化（RandDisc），一种白盒防御方法，通过在分类前向图像像素注入高斯噪声并将其离散化为聚类中心，实现对ImageNet上强PGD攻击的最先进鲁棒性，平均优于对抗训练模型和NIPS 2017竞赛中的顶尖防御方法至少18%，最坏情况下优于35%。

ABSTRACT

Adversarial perturbations dramatically decrease the accuracy of state-of-the-art image classifiers. In this paper, we propose and analyze a simple and computationally efficient defense strategy: inject random Gaussian noise, discretize each pixel, and then feed the result into any pre-trained classifier. Theoretically, we show that our randomized discretization strategy reduces the KL divergence between original and adversarial inputs, leading to a lower bound on the classification accuracy of any classifier against any (potentially whitebox) $\\ell_\\infty$-bounded adversarial attack. Empirically, we evaluate our defense on adversarial examples generated by a strong iterative PGD attack. On ImageNet, our defense is more robust than adversarially-trained networks and the winning defenses of the NIPS 2017 Adversarial Attacks & Defenses competition.

研究动机与目标

开发一种无需微调预训练模型的白盒对抗攻击防御方法。
基于信息论提供理论支撑的鲁棒性证书，利用KL散度减少。
在大规模数据集（如ImageNet）上，通过强迭代攻击（如PGD）实证评估该防御的鲁棒性。
证明随机防御在ImageNet上可实现优于对抗训练模型的鲁棒性。
展示随机离散化可在不进行模型微调的情况下提升鲁棒性，同时保持高干净图像准确率。

提出的方法

向输入图像的每个像素注入均值为零的高斯噪声，以随机化输入分布。
应用基于聚类的离散化步骤，将每个像素映射到颜色空间（如Lab空间）中最近的聚类中心。
将随机化且离散化的图像输入任意预训练分类器，无需微调。
使用可微近似方法——随机混合（RandMix）生成对抗样本，以评估非可微的RandDisc防御。
理论分析表明，RandDisc可减少干净输入与对抗输入之间的KL散度，从而提供鲁棒准确率的下界。
通过迭代PGD攻击评估该防御，并与对抗训练模型及其他基于变换的防御方法在MNIST和ImageNet上进行比较。

实验结果

研究问题

RQ1一种无需微调的防御方法能否在ImageNet上实现对白盒对抗攻击的强鲁棒性？
RQ2随机离散化是否能减少干净输入与对抗输入之间的KL散度，从而实现鲁棒性认证？
RQ3在强PGD攻击下，RandDisc与对抗训练模型及NIPS 2017竞赛中的顶尖防御方法相比表现如何？
RQ4为何RandDisc在ImageNet上提升鲁棒性，而在MNIST上其他随机防御方法失败？
RQ5随机防御能否在高分辨率图像（如ImageNet）上提供非平凡的认证准确率边界？

主要发现

在ImageNet上，当ε = 1、2、4时，RandDisc在PGD攻击下的准确率分别为62.9%、54.2%和39.5%，优于对抗训练的InceptionResNet模型。
在NIPS 2017竞赛中排名前三的攻击（ε = 8）下，RandDisc平均优于前三名防御方法至少18%，最坏情况下优于35%。
在MNIST上，RandDisc结合普通CNN在ε = 0.1时达到94.4%的鲁棒准确率，而原始模型仅为12.0%。
由于高分辨率图像中KL散度边界的累积效应，RandDisc的认证准确率仅对极小扰动（ε < 0.1）为非平凡值。
在ImageNet上，RandDisc的鲁棒性优于对抗训练模型，表明后者在强迭代攻击下可能效果较差。
RandDisc（88.6%）和RandMix（92.7%）的干净图像准确率低于基线分类器（97.1%），表明鲁棒性与干净准确率之间存在权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。