QUICK REVIEW

[论文解读] Countering Adversarial Images using Input Transformations

Chuan Guo, Mayank Rana|arXiv (Cornell University)|Oct 31, 2017

Adversarial Robustness in Machine Learning参考文献 24被引用 436

一句话总结

本论文研究输入变换（裁剪/调整大小、比特深度降低、JPEG、总变差最小化、以及图像拼花）以在对抗性攻击下保护图像分类器，结果显示 TV 最小化和拼花尤为有效，尤其是在模型在经过变换后的图像上训练时。最强防御能够阻挡大多数灰盒和黑盒攻击。

ABSTRACT

This paper investigates strategies that defend against adversarial-example attacks on image-classification systems by transforming the inputs before feeding them to the system. Specifically, we study applying image transformations such as bit-depth reduction, JPEG compression, total variance minimization, and image quilting before feeding the image to a convolutional network classifier. Our experiments on ImageNet show that total variance minimization and image quilting are very effective defenses in practice, in particular, when the network is trained on transformed images. The strength of those defenses lies in their non-differentiable nature and their inherent randomness, which makes it difficult for an adversary to circumvent the defenses. Our best defense eliminates 60% of strong gray-box and 90% of strong black-box attacks by a variety of major attack methods

研究动机与目标

通过输入变换去除对抗性扰动来实现鲁棒的图像分类。
评估简单且非微分/随机化的变换作为模型无关的防御。
在 ImageNet 上评估灰盒和黑盒攻击设置下的鲁棒性。
检验在经过变换图像上训练分类器对防御效果的影响。

提出的方法

评估五种图像变换：图像裁剪-重新缩放、比特深度降低、JPEG 压缩、总变差最小化（TVM）、以及图像拼花。
在防御策略可知的情况下使用非微分或随机化的防御以阻碍对手。
将变换与训练时变换相结合以提升鲁棒性；在灰盒和黑盒设置下进行测试。
模型攻击包括 FGSM、迭代 FGSM、DeepFool 与 CW-L2；通过归一化的 L2 相异性来评估成功率。
对于 TVM，通过分裂 Bregman 的凸优化来最小化总变差与重建误差。
图像拼花从干净 Patch 的数据库中抽取 Patch 构造图像，以打乱对抗性扰动。

实验结果

研究问题

RQ1输入变换防御（裁剪、比特深度、JPEG、TVM、拼花）在减少 ImageNet 上对抗性扰动方面有多有效？
RQ2在经过变换的图像上训练分类器是否能提高对灰盒和黑盒攻击的鲁棒性？
RQ3与在不同攻击方法上的集成对抗性训练相比，这些防御有何差异？
RQ4随机性和非微分性在这些防御的强度中起到怎样的作用？
RQ5变换的组合（以及模型迁移）是否能在被攻击的体系结构上实现统一保护？

主要发现

总体变差最小化和图像拼花是最强的防御，因为它们是不可微分且具有随机性，能去除大量对抗性扰动。
在灰盒测试中，最强的防御在大多数重要攻击方法中大约消除了约60%的强灰盒攻击和约90%的强黑盒攻击。
在测试时使用随机裁剪的裁剪对经过变换的对抗性图像能得到40–60%的正确分类，表明对扰动具有鲁棒性。
在经过变换的图像上训练网络可显著提升防御效果，在某些设置中，图像拼花对80–90%的强攻击具有防御作用。
集成防御和模型迁移可以增加1–3个百分点的鲁棒性；然而，TVM 和拼花在数据经过变换的模型上提供的增益最为显著。
与集成对抗性训练相比，输入变换防御在不同攻击类型上具有更好的泛化性，尤其在灰盒设置下对迭代攻击（如 DeepFool）更为强大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。