QUICK REVIEW

[论文解读] ADef: an Iterative Algorithm to Construct Adversarial Deformations

Rima Alaifari, Giovanni S. Alberti|arXiv (Cornell University)|Apr 20, 2018

Adversarial Robustness in Machine Learning参考文献 27被引用 24

一句话总结

本文提出ADef，一种基于梯度的迭代算法，通过在图像上施加微小且难以察觉的形变而非加性扰动来生成对抗性样本。该方法在MNIST和ImageNet上对最先进分类器的攻击成功率高达99%，且仅使用极小的形变，证明深度神经网络对标准范数攻击之外的几何变换攻击同样存在脆弱性。

ABSTRACT

While deep neural networks have proven to be a powerful tool for many recognition and classification tasks, their stability properties are still not well understood. In the past, image classifiers have been shown to be vulnerable to so-called adversarial attacks, which are created by additively perturbing the correctly classified image. In this paper, we propose the ADef algorithm to construct a different kind of adversarial attack created by iteratively applying small deformations to the image, found through a gradient descent step. We demonstrate our results on MNIST with convolutional neural networks and on ImageNet with Inception-v3 and ResNet-101.

研究动机与目标

解决深度神经网络对利用几何变换而非范数基扰动的对抗性攻击的脆弱性问题。
开发一种高效、基于梯度的方法，用于生成视觉上难以察觉的对抗性形变。
评估分类器（包括对抗性训练的分类器）对基于形变的攻击的鲁棒性。
证明基于形变的攻击可以绕过针对标准扰动攻击训练的防御机制。

提出的方法

ADef 使用迭代梯度下降法，通过优化向量场 τ 来形变输入图像，以最小化形变范数，同时推动图像逼近决策边界。
该算法受DeepFool启发，但将其适配到形变空间，其中对抗性图像为 y = x ∘ (id + τ)，而非 y = x + r。
对向量场 τ 施加平滑操作，以确保形变平滑自然，提升优化稳定性。
该方法计算分类器损失相对于形变场 τ 的梯度，从而在使误分类风险最大化的方向上迭代优化 τ。
通过修改损失函数，支持无目标和有目标攻击，以偏向特定目标类别。
该算法在MNIST上使用CNN，在ImageNet上使用Inception-v3和ResNet-101进行评估，采用 τ 的L2范数而非 r 的 ℓp 范数来衡量感知相似性。

实验结果

研究问题

RQ1基于形变的对抗性样本（即几何变换而非加性扰动）能否在视觉变化极小的情况下成功误导深度神经网络分类器？
RQ2与标准 ℓ∞-范数攻击相比，基于形变的攻击在标准模型和对抗性训练模型上的成功率如何？
RQ3ADef 能否生成视觉上难以察觉但依然有效的对抗性样本，即使分类器对标准对抗性训练具有鲁棒性？
RQ4使用PGD进行对抗性训练是否比使用ADef训练能提供对基于形变攻击的更好鲁棒性？
RQ5形变场 τ 及其范数如何与感知相似性和对抗性攻击成功率相关联？

主要发现

ADef 在使用难以察觉的形变情况下，成功以约99%的攻击成功率欺骗了MNIST和ImageNet上的最先进分类器。
在MNIST上，ADef 对使用PGD对抗性训练的网络攻击成功率为54.16%，表明PGD训练的模型对基于形变的攻击不如ADef训练的模型鲁棒。
ADef 生成的形变在视觉上与原始图像几乎无法区分，即使底层扰动的 ℓ∞-范数较大，这是由于攻击的几何特性所致。
在ImageNet上，ADef 生成了高分辨率、自然外观的对抗性样本，尽管形变场幅值较大，但视觉上不可察觉。
使用PGD进行对抗性训练的网络对ADef攻击表现出比ADef训练网络更高的抵抗能力，表明防御策略必须考虑多样化的攻击类型。
ADef 的有目标攻击能够有效将图像引导至特定的低概率标签，展示了该方法在控制误分类方面的灵活性与精确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。