QUICK REVIEW

[论文解读] Big but Imperceptible Adversarial Perturbations via Semantic Manipulation.

Anand Bhattad, Min Jin Chong|arXiv (Cornell University)|Apr 12, 2019

Adversarial Robustness in Machine Learning参考文献 20被引用 21

一句话总结

本文提出了一类新型对抗性扰动，通过操纵语义图像属性——颜色与纹理——在不限制扰动幅度的前提下，生成逼真的、大范围的对抗性样本。与传统$ olimits_p$-有界攻击不同，这些语义扰动对人类而言难以察觉，且能有效规避JPEG压缩、特征压缩以及ImageNet和MSCOCO上的对抗性训练模型等防御机制。

ABSTRACT

Machine learning models, especially deep neural networks (DNNs), have been shown to be vulnerable against adversarial examples which are carefully crafted samples with a small magnitude of the perturbation. Such adversarial perturbations are usually restricted by bounding their $\mathcal{L}_p$ norm such that they are imperceptible, and thus many current defenses can exploit this property to reduce their adversarial impact. In this paper, we instead introduce unrestricted perturbations that manipulate semantically meaningful image-based visual descriptors - color and texture - in order to generate effective and photorealistic adversarial examples. We show that these semantically aware perturbations are effective against JPEG compression, feature squeezing and adversarially trained model. We also show that the proposed methods can effectively be applied to both image classification and image captioning tasks on complex datasets such as ImageNet and MSCOCO. In addition, we conduct comprehensive user studies to show that our generated semantic adversarial examples are photorealistic to humans despite large magnitude perturbations when compared to other attacks.

研究动机与目标

为解决当前对抗攻击依赖小范围、$ olimits_p$-有界扰动所导致的局限性，此类扰动易受利用其小幅度特性的防御机制影响。
探究是否可通过操纵语义上具有意义的图像描述符——颜色与纹理——来生成大范围但人类难以察觉的对抗性样本。
开发一种方法，生成对鲁棒防御（如JPEG压缩、特征压缩和对抗性训练）有效的逼真对抗性样本。
在ImageNet和MSCOCO等复杂数据集上，评估语义扰动在图像分类与图像字幕生成等多样化任务中的有效性。
通过用户研究验证人类感知相似性，证明即使扰动幅度较大，其生成的对抗性样本仍保持视觉自然与真实。

提出的方法

该方法通过在语义图像描述符（具体为颜色与纹理）的空间中优化扰动，而非原始像素空间，来构建对抗性攻击。
采用可微分的图像转换流水线，以保持逼真度的同时，操纵颜色直方图与纹理模式，从而最大化模型误分类。
攻击框架旨在最大化目标模型的交叉熵损失，同时通过感知相似性度量约束扰动的语义合理性。
该方法端到端应用于图像分类与图像字幕生成模型，实现跨任务与数据集的迁移能力。
通过用户研究评估感知相似性，比较人类对原始图像与扰动后图像的判断，以评估真实感与不可察觉性。
在多种防御机制下进行评估，包括不同质量等级的JPEG压缩、通过空间与颜色预处理实现的特征压缩，以及对抗性训练模型。

实验结果

研究问题

RQ1通过操纵颜色与纹理等语义属性的大范围对抗性扰动，是否仍对人类难以察觉？
RQ2语义对抗性扰动在应对JPEG压缩与特征压缩等鲁棒防御机制时效果如何？
RQ3语义扰动在不同模型与任务（包括图像分类与图像字幕生成）之间具有多大程度的迁移能力？
RQ4与标准$ olimits_p$-有界攻击相比，语义对抗性样本在人类感知真实感与模型规避能力方面表现如何？
RQ5语义操纵是否能生成即使扰动幅度超过典型对抗性边界，仍保持高度逼真度的对抗性样本？

主要发现

所提出的语义对抗性扰动在标准模型与鲁棒模型（包括采用对抗防御技术训练的模型）上均实现了高攻击成功率。
该攻击对JPEG压缩与特征压缩等常见预处理防御机制仍具有效性，展现出对防御的强鲁棒性。
用户研究证实，生成的对抗性样本在人类观察者眼中与原始图像无异，具有高度逼真感，即使扰动幅度较大。
该方法在模型与任务之间表现出强大的迁移能力，在ImageNet与MSCOCO数据集上对图像分类与图像字幕生成任务均表现有效。
在常见防御机制下评估时，该攻击显著优于标准$ olimits_p$-有界攻击。
通过操纵颜色与纹理实现的语义扰动，可生成既高效又视觉自然的对抗性样本，挑战了‘不可察觉性要求小扰动’的既有假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。