QUICK REVIEW

[论文解读] Adversarial Transformation Networks: Learning to Generate Adversarial Examples

Shumeet Baluja, Ian Fischer|arXiv (Cornell University)|Mar 28, 2017

Adversarial Robustness in Machine Learning参考文献 28被引用 221

一句话总结

ATNs 被训练成前馈网络以生成针对目标分类器的对抗样本，使快速、多样、定向攻击成为可能，并在 MNIST 与 ImageNet (Inception ResNet v2) 上进行自监督训练。

ABSTRACT

Multiple different approaches of generating adversarial examples have been proposed to attack deep neural networks. These approaches involve either directly computing gradients with respect to the image pixels, or directly solving an optimization on the image pixels. In this work, we present a fundamentally new method for generating adversarial examples that is fast to execute and provides exceptional diversity of output. We efficiently train feed-forward neural networks in a self-supervised manner to generate adversarial examples against a target network or set of networks. We call such a network an Adversarial Transformation Network (ATN). ATNs are trained to generate adversarial examples that minimally modify the classifier's outputs given the original input, while constraining the new classification to match an adversarial target class. We present methods to train ATNs and analyze their effectiveness targeting a variety of MNIST classifiers as well as the latest state-of-the-art ImageNet classifier Inception ResNet v2.

研究动机与目标

通过生成对抗样本来激发并展示深度分类器的弱点。
提出能够在保持非顶层输出排序的前提下产生对抗输入的对抗性变换网络（ATN）。
展示对 MNIST 分类器与一个最先进的 ImageNet 模型的定向、白盒 ATN 训练。
分析转移性、内部状态信息，以及 ATN 的并行/串联使用。

提出的方法

将 ATN 定义为一个神经网络 g_{f,θ}(x)，它输出用于目标分类器 f 的对抗样本 x'。
通过最小化一个组合损失 β L_{X}(g_{f,θ}(x), x) + L_{Y}(f(g_{f,θ}(x)), f(x)) 来训练 ATN。
使用带有 L_{Y} 的定向攻击，L_{Y} 通过重排序函数 r(y, t) 构造，以确保经过变换后目标类别 t 位于顶部。
探索两种 ATN 变体：扰动型 ATN（P-ATN）和对抗性自编码（AAE）ATN，输出受限于有效输入范围（例如 tanh 激活）。
在固定目标分类器的自监督方式下训练 ATN，无需目标标签。

实验结果

研究问题

RQ1前馈网络是否可以被训练成产生对目标分类器有效的定向对抗样本？
RQ2在一个网络上训练的 ATN 是否能迁移到其他网络，是否可以同时对多个网络进行攻击？
RQ3是否提供目标分类器的内部信号（内部信息）能够提升 ATN 的有效性，特别是在维持次级输出顺序方面？
RQ4当以并行或串联方式应用 ATN 时，其对图像质量和攻击成功率的影响是什么？
RQ5在 MNIST 上训练的 ATN 是否能推广到大规模 ImageNet 模型，不同 ATN 架构如何影响对抗样本的多样性和强度？

主要发现

β	0.010	0.005	0.001
ATN a (FC→FC→28x28)	69.1% 91.7% 63.5%	84.1% 93.4% 78.6%	95.9% 95.3% 91.4%
ATN b (3x3 Conv→…→FC)	61.8% 93.8% 58.7%	77.7% 95.8% 74.5%	89.2% 97.4% 86.9%
ATN c (3x3 Conv→…→Deconv)	66.6% 95.5% 64.0%	82.5% 96.6% 79.7%	91.4% 97.5% 89.1%

ATN 在 MNIST 分类器上能够实现高定向成功率，成功率随 β 而异；较小的 β 可获得更忠实的重建，但攻击成功率也较高。
AAE ATN 通常在对 ImageNet 的 Inception-ResNet v2 的 top-1 对抗准确率上优于扰动型 ATN，而扰动方法则保留了更多原始像素。
ATN 的变换往往使对抗输出多样化，产生多种看起来合理的扰动，而非单一扰动模式。
迁移性测试表明 ATN 攻击对不同架构并非通用；攻击一个网络训练出的模型并不自动对其他网络产生欺骗效果。
在对多个网络信号进行训练时，对已训练目标表现出强劲性能，并在未见网络上有一定的迁移效果，成功度各异。*
向目标分类器提供内部状态信息可以提升对第二-ranked 类的次级输出保持，从而提高条件下的成功率。*
串联应用 ATN 会降低图像质量，而并行应用则在多网络上获得广泛成功，但随着更多 ATN 串联，收益递减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。