[论文解读] Delving into Transferable Adversarial Examples and Black-box Attacks
论文研究在 ImageNet 规模模型上的对抗样本可转移性,显示非目标转移很常见,目标转移很少,除非使用基于集成的方法,并演示对 Clarifai.com 的黑箱转移。
An intriguing property of deep neural networks is the existence of adversarial examples, which can transfer among different architectures. These transferable adversarial examples may severely hinder deep neural network-based applications. Previous works mostly study the transferability using small scale datasets. In this work, we are the first to conduct an extensive study of the transferability over large models and a large scale dataset, and we are also the first to study the transferability of targeted adversarial examples with their target labels. We study both non-targeted and targeted adversarial examples, and show that while transferable non-targeted adversarial examples are easy to find, targeted adversarial examples generated using existing approaches almost never transfer with their target labels. Therefore, we propose novel ensemble-based approaches to generating transferable adversarial examples. Using such approaches, we observe a large proportion of targeted adversarial examples that are able to transfer with their target labels for the first time. We also present some geometric studies to help understanding the transferable adversarial examples. Finally, we show that the adversarial examples generated using ensemble-based approaches can successfully attack Clarifai.com, which is a black-box image classification system.
研究动机与目标
- 评估在大规模 ImageNet 模型之间对非目标对抗样本的可转移性。
- 研究目标对抗样本的可转移性以及其发生的频率。
- 开发基于集成的方法以提高对目标攻击的转移性。
- 考察大型模型的几何性质以理解转移性。
- 演示对现实服务(Clarifai.com)的黑盒转移性。
提出的方法
- 比较优化式、快速梯度(FG)和快速梯度符号(FGS)方法在多种架构上的非目标与目标攻击的效果。
- 在所有被考察模型正确分类的 100 张 ImageNet 验证图像上评估转移性。
- 引入基于集成的优化以同时针对多模型生成对抗样本。
- 分析梯度方向和决策边界以理解对抗样本为何会转移。
- 在对未知训练数据和标签的真实黑盒服务(Clarifai.com)上测试对抗样本。
实验结果
研究问题
- RQ1在大规模 ImageNet 模型之间,非目标对抗样本的可转移性有多大?
- RQ2在模型之间,目标对抗样本的可转移性有多大,转移是否可以提高?
- RQ3基于集成的方法是否能在多模型之间提升对目标的转移性?
- RQ4大型卷积神经网络的哪些几何属性能解释转移性(例如梯度正交性、决策边界对齐)?
- RQ5对一个未知模型和数据的黑盒在线分类器(Clarifai.com),对抗样本能否转移?
主要发现
- 非目标对抗样本在 ImageNet 模型之间显示出显著的转移性,转移的程度取决于源模型和目标模型的组合。
- 现有的单模型方法生成的目标对抗样本转移性较差;基于集成的生成在跨多模型的目标转移性方面显著提高。
- 基于集成的目标攻击在若干模型上实现了较高的转移率,尽管并非普遍适用且取决于目标模型。
- 不同模型之间的梯度方向在很大程度上彼此正交,而它们的决策边界对齐,部分解释了转移现象。
- 通过集合方法生成的对抗样本能够转移到真实的黑盒服务(Clarifai.com),即使训练数据与标签未知。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。