QUICK REVIEW

[论文解读] Structured Adversarial Attack: Towards General Implementation and Better Interpretability

Kaidi Xu, Sijia Liu|arXiv (Cornell University)|Aug 5, 2018

Adversarial Robustness in Machine Learning被引用 104

一句话总结

引入结构化对抗攻击（StrAttack），通过滑动掩模和ADMM在扰动中强制群组稀疏性，在具有可解释结构扰动的情况下实现具有竞争力的失真。

ABSTRACT

When generating adversarial examples to attack deep neural networks (DNNs), Lp norm of the added perturbation is usually used to measure the similarity between original image and adversarial example. However, such adversarial attacks perturbing the raw input spaces may fail to capture structural information hidden in the input. This work develops a more general attack model, i.e., the structured attack (StrAttack), which explores group sparsity in adversarial perturbations by sliding a mask through images aiming for extracting key spatial structures. An ADMM (alternating direction method of multipliers)-based framework is proposed that can split the original problem into a sequence of analytically solvable subproblems and can be generalized to implement other attacking methods. Strong group sparsity is achieved in adversarial perturbations even with the same level of Lp norm distortion as the state-of-the-art attacks. We demonstrate the effectiveness of StrAttack by extensive experimental results onMNIST, CIFAR-10, and ImageNet. We also show that StrAttack provides better interpretability (i.e., better correspondence with discriminative image regions)through adversarial saliency map (Papernot et al., 2016b) and class activation map(Zhou et al., 2016).

研究动机与目标

在对抗扰动中探索群组稀疏性，以捕捉图像中的空间结构。
建立一个通用而高效的结构化攻击优化框架。
证明StrAttack在产生稀疏结构扰动的同时能保留传统的失真度量。
通过显著性图和类激活图展示扰动的可解释性。
评估StrAttack在不同数据集及对抗防御下的鲁棒性。

提出的方法

定义一个滑动掩模将扰动划分为若干组，并通过类似组Lasso的正则项 g(Δ) 来强加群组稀疏性。
构建包含损失项、失真项和群组稀疏项的通用攻击目标；并将其与C&W和EAD作为特例联系起来。
利用ADMM高效求解得到的非凸问题，引入辅助变量以实现闭式更新（例如 Δ-步、z-步、y-步和 w-步）。
采用带Bregman散度的线性化ADMM变体来处理非凸损失 f(x0+z) 并获得闭式的 z-更新。
扩展到带有多个 y 变量的重叠组结构，并相应地修改 ADMM 步骤。
提供一个细化机制，在原目标下固定稀疏扰动模式并对数值进行微调。

实验结果

研究问题

RQ1结构化（组稀疏）扰动是否能够在不增加像素级失真情况下识别出误导DNN的最小充足区域？
RQ2StrAttack是否能推广现有的范数球攻击（如C&W、EAD），并提升扰动的可解释性？
RQ3如何利用ADMM高效生成结构化对抗扰动，包括重叠组？
RQ4StrAttack能否通过ASM和CAM揭示扰动区域与判别性图像区域之间的更清晰对应关系？
RQ5StrAttack是否对防御方法有效，并且在大规模数据集（MNIST、CIFAR-10、ImageNet）和跨模型上表现良好？

主要发现

StrAttack在扰动中产生强烈的群组稀疏性，同时保持与最先进攻击相当的 ℓp 失真。
StrAttack扰动突出显示最小充足区域，通常与目标对象的语义结构对齐。
重叠组结构是可行的，在相同失真约束下可以产生更稀疏的扰动。
基于ADMM的求解器提供闭式更新和可并行化的步骤，相较于以往方法提高了效率和通用性。
与非结构化攻击相比，StrAttack通过对抗性显著性图和类激活映射展示了可解释性提升。
StrAttack在对抗防御（防御性蒸馏和对抗性训练）下仍然有效，并在多种网络架构之间显示出强的迁移性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。