[论文解读] A Simple Explanation for the Existence of Adversarial Examples with Small Hamming Distance
本论文提供一个理论框架,表明在高维、分段线性网络中,具有较小 L0(汉明)距离的定向对抗样本自然会出现,并通过 MNIST 实验验证了该想法,发现对 m 类的有效对抗变化在 m+1 坐标内。
The existence of adversarial examples in which an imperceptible change in the input can fool well trained neural networks was experimentally discovered by Szegedy et al in 2013, who called them "Intriguing properties of neural networks". Since then, this topic had become one of the hottest research areas within machine learning, but the ease with which we can switch between any two decisions in targeted attacks is still far from being understood, and in particular it is not clear which parameters determine the number of input coordinates we have to change in order to mislead the network. In this paper we develop a simple mathematical framework which enables us to think about this baffling phenomenon from a fresh perspective, turning it into a natural consequence of the geometry of $\mathbb{R}^n$ with the $L_0$ (Hamming) metric, which can be quantitatively analyzed. In particular, we explain why we should expect to find targeted adversarial examples with Hamming distance of roughly $m$ in arbitrarily deep neural networks which are designed to distinguish between $m$ input classes.
研究动机与目标
- 解释为什么具有小海明距离的对抗样本是高维分段线性分类器的自然副产物。
- 定量分析在神经网络中需要改变多少输入坐标以在带标签区域之间移动。
- 通过理论界限和 MNIST 实验演示,在区分 m 个类别时,改变大约 m 个坐标即可在任意两个类别区域之间移动。
提出的方法
- 将神经网络建模为由 ReLU 激活诱导的分段线性映射。
- 分析由 m 个超平面划分的 R^n,并推导在稀疏扰动可将点从一个单元移动到另一个单元时的条件(L0 度量)。
- 证明在类似随机的超平面排列中,当 n 相对于 m 很大时,改变两个坐标通常就足够。
- 提出一个基础算法,扰动约 m 个坐标以将网络输出引导向目标类别,并提出一个改进的随机化版本以避免硬/软失败。
- 通过 MNIST 的实验证明在区分 m 个类别的网络中存在距离为 m+1 的对抗样本。
实验结果
研究问题
- RQ1在高维分段线性网络中,需要改变多少个输入坐标才能从一个类别区域移动到另一个类别区域?
- RQ2一个小的 L0(汉明)扰动是否足以实现跨越 m 类的定向错误分类?这与 n 和 m 的规模如何相关?
- RQ3我们能否设计一种算法来构造此类定向对抗样本,以及其成功/失败模式是什么?
主要发现
- 在由 m 条线性分隔器划分的 R^n 的分区中,如果存在若干列的稀疏组合落在所期望的象限中,则改变至多 k 个坐标的稀疏扰动可以到达另一个带标签的区域;当 k=2 时,当 n 相对于 m 适中时,这种情况很可能发生。
- 对于 MNIST(n=784,m=10),实验表明通过修改 11 个像素(m+1)即可将一个数字切换到任何其他数字,实证了 m+1 上界在实践中的成立。
- 理论界限表明,在通常的情形下,当 n 较大时,改变大约 m 个坐标就足以在分区中在任意两个区域之间移动,从而实现定向攻击。
- 一种随机化改进(改为改变 m+1 个坐标,而不是 m 个)有助于避免软失败并更可靠地找到对抗样本。
- 结果表明,仅靠保持分段线性或增加网络深度的防御,可能仍然容易受到低汉明距离定向对抗样本的攻击。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。