QUICK REVIEW

[论文解读] LaVAN: Localized and Visible Adversarial Noise

Danny Karmon, Daniel Zoran|arXiv (Cornell University)|Jan 8, 2018

Adversarial Robustness in Machine Learning参考文献 10被引用 106

一句话总结

LaVAN 证明可见对抗噪声被限制在仅占图像的 2% 的补丁内即可跨图像/位置转移，并以高置信度欺骗 Inception v3，同时不触及主对象。

ABSTRACT

Most works on adversarial examples for deep-learning based image classifiers use noise that, while small, covers the entire image. We explore the case where the noise is allowed to be visible but confined to a small, localized patch of the image, without covering any of the main object(s) in the image. We show that it is possible to generate localized adversarial noises that cover only 2% of the pixels in the image, none of them over the main object, and that are transferable across images and locations, and successfully fool a state-of-the-art Inception v3 model with very high success rates.

研究动机与目标

研究可见但局部化到图像中一个小区域的对抗噪声，不覆盖主对象。
证明此类噪声在图像和位置之间具有很高的有效性和可转移性。
比较网络域和图像域噪声设置，并分析对模型弱点的影响。

提出的方法

将对抗噪声形式化为带掩码 m 的优化，以将扰动限制在一个小补丁上（x' = (1-m) ⊙ x + m ⊙ δ）。
使用一个使目标类别更接近、同时远离最高分来源类别的损失，基于 softmax 之前的激活 M(x)。
实现两种噪声域：网络域（无界）和图像域（裁剪到 [0,1]）。
开发一个定位策略，补丁大小最多为图像像素的 2%，在 299×299 图像上通常为 42×42，靠近图像角落。
通过在随机图像/位置反复应用相同补丁并向共享目标类别进行梯度步更新，扩展为可转移（通用）局部噪声。

实验结果

研究问题

RQ1较小、可见、局部化的噪声补丁是否能在不覆盖主对象的情况下使图像错分类？
RQ2此类局部化噪声是否在图像域和网络域内不同图像和位置之间具有可转移性？
RQ3网络域与图像域设置在成功率和可转移性方面有何差异？
RQ4这些局部扰动的梯度归因模式是什么（网络是否将责任归于补丁）？

主要发现

局部化的网络域噪声在覆盖最多 2% 像素且不触及主对象的情况下，可高置信度地导致错分。
在单图像单位置设置中，尝试的配置中有 79% 实现了目标高置信度错分；在允许较低目标置信度的情况下，成功率为 91%；有 98% 将分类错分到非源类别。
可转移的局部噪声在 14 个目标类别上有效，在大约 83% 的位置达到目标置信度 ≥0.9，并在 97% 的位置阻止源类别。
图像域可转移噪声效果较差但仍可用，达到目标 ≥0.9 的为 28.3%，成为首选目标为 74.1%；有 78.9% 将源类别错分。
当用转移噪声的补丁测试图像时，目标和源概率随位置而异，但补丁在梯度中通常仍然显著，而未被视为主要原因。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。