Skip to main content
QUICK REVIEW

[论文解读] UPSET and ANGRI : Breaking High Performance Image Classifiers

Sayantan Sarkar, Ankan Bansal|arXiv (Cornell University)|Jul 4, 2017
Adversarial Robustness in Machine Learning参考文献 15被引用 90
一句话总结

这篇论文提出了两种黑盒定向攻击方法,UPSET(通用扰动)和ANGRI(图像特定扰动),以在 MNIST 与 CIFAR-10 上欺骗高性能图像分类器。

ABSTRACT

In this paper, targeted fooling of high performance image classifiers is achieved by developing two novel attack methods. The first method generates universal perturbations for target classes and the second generates image specific perturbations. Extensive experiments are conducted on MNIST and CIFAR10 datasets to provide insights about the proposed algorithms and show their effectiveness.

研究动机与目标

  • 促进并解决对高性能图像分类器的定向欺骗。
  • 介绍两种攻击算法 UPSET 和 ANGRI,生成扰动图像以强制特定目标类别。
  • 评估在 MNIST 和 CIFAR-10 数据集上的攻击有效性和保真度。
  • 分析在不同受害分类器和训练方案下的泛化。

提出的方法

  • UPSET 使用残差生成器 R 为每个目标 t 产生通用扰动 r_t;对抗性图像为 x_hat = clip_U(x, t) 其中 x_hat = max(min(s * R(t) + x, 1), -1).
  • ANGRI 通过一个专用网络 A 将输入图像 x 和目标 t 结合,产生 x_hat = A(x, t)。
  • 两种方法优化损失 L = L_C(x_hat, t) + L_F(x, x_hat),其中 L_C 是在多个预训练分类器上的交叉熵误分类损失,L_F 是保真度损失(x 与 x_hat 之间的范数)。
  • 对于 UPSET,L_F 被替换为 ||R(x, t)||_2^2,因为扰动本质上来自残差。
  • 实验在 MNIST 和 CIFAR-10 上测量 Targeted Fooling Rate (TFR), Misclassification Rate (MR), Fidelity Score (FS), 和 Confidence (C);架构在 MNIST 与 CIFAR-10 中有详细描述。

实验结果

研究问题

  • RQ1黑盒扰动网络是否能够在多个目标类上实现定向欺骗?
  • RQ2就欺骗率和视觉保真度而言,通用扰动(UPSET)与图像特定扰动(ANGRI)的比较性能如何?
  • RQ3UPSET 与 ANGRI 如何在相似或不同的受害分类器体系结构中泛化?
  • RQ4同时在多分类器上训练是否提高跨模型的泛化能力?
  • RQ5视觉损失权重 w 如何影响 MNIST/CIFAR-10 上的定向欺骗与保真度?

主要发现

  • UPSET 与 ANGRI 在黑盒设置下在 MNIST 和 CIFAR-10 上实现了显著的定向欺骗率。
  • ANGRI 通常在相似保真度水平下比 UPSET 产生更高的 TFR,因为它使用输入相关扰动。
  • 在多分类器上进行同时训练会改善攻击的跨模型泛化,通常对自我攻击性能有小幅代价。
  • 跨模型的欺骗率在结构相近的分类器上更高;在同一类型(如 CNN 或 ResNet)的结构之间,训练于一种结构的攻击对同类型的其他结构通常泛化更好。
  • 当达到目标类别时,攻击信心度很高,表明在成功的欺骗下存在强烈的误分类确定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。