Skip to main content
QUICK REVIEW

[论文解读] Quantifying Perceptual Distortion of Adversarial Examples

Matt Jordan, Naren Sarayu Manoj|arXiv (Cornell University)|Feb 21, 2019
Adversarial Robustness in Machine Learning参考文献 21被引用 31
一句话总结

本文通过对比 $δ$-加法扰动与基于流的扰动,对对抗样本进行了形式化分析,表明结合两种威胁模型可生成仅靠任一方法无法实现的对抗样本。其核心贡献在于理论证明:当局部图像区域呈现低对比度(加法攻击适用)与高对比度(流攻击适用)时,联合攻击空间显著扩大,从而能够生成更强大且多样的对抗样本。

ABSTRACT

Recent work has shown that additive threat models, which only permit the addition of bounded noise to the pixels of an image, are insufficient for fully capturing the space of imperceivable adversarial examples. For example, small rotations and spatial transformations can fool classifiers, remain imperceivable to humans, but have large additive distance from the original images. In this work, we leverage quantitative perceptual metrics like LPIPS and SSIM to define a novel threat model for adversarial attacks. To demonstrate the value of quantifying the perceptual distortion of adversarial examples, we present and employ a unifying framework fusing different attack styles. We first prove that our framework results in images that are unattainable by attack styles in isolation. We then perform adversarial training using attacks generated by our framework to demonstrate that networks are only robust to classes of adversarial perturbations they have been trained against, and combination attacks are stronger than any of their individual components. Finally, we experimentally demonstrate that our combined attacks retain the same perceptual distortion but induce far higher misclassification rates when compared against individual attacks.

研究动机与目标

  • 对 $δ$-加法与基于流的对抗扰动在感知与结构上的差异进行形式化分析。
  • 基于局部图像对比度,识别一种攻击类型在像素变化上超过另一种攻击类型的情境。
  • 证明结合两种攻击类型可生成仅靠单一方法无法实现的对抗样本。
  • 通过实证验证,真实图像(如 CIFAR-10 和 ImageNet)中同时存在低对比度与高对比度区域,表明联合攻击具有有效性。

提出的方法

  • 使用 $C_{\text{max}}(x_{00}) = \max_{i,j \in \{-1,0,1\}} |x_{ij} - x_{00}|$ 定义局部对比度,测量 3×3 邻域内最大像素差异。
  • 引入 $E_{\text{max}}(x_{00}) = \max_{|i| \neq |j|} |x_{ij} - x_{00}|$ 以隔离对角线外像素差异,捕捉几何复杂性。
  • 基于引理 1 使用双线性插值建模流扰动,将新像素值表示为象限角点的加权和。
  • 建立正式威胁模型,其中流扰动受 $\epsilon \in [0,1]$ 限制,加法扰动受 $\delta$ 限制。
  • 利用引理 2 证明,在低对比度区域中,加法扰动能超过流扰动的幅度。
  • 利用引理 3 证明,在高对比度区域中,流扰动能超过加法扰动的幅度,尤其当 $E_{\text{max}}(x_{00}) > \delta / \epsilon$ 时。

实验结果

研究问题

  • RQ1在何种图像条件下,基于流的扰动可产生超过大小为 $\delta$ 的加法扰动所能达到的最大变化?
  • RQ2在何种条件下,加法扰动能产生超过参数为 $\epsilon$ 的流扰动所能达到的最大变化?
  • RQ3加法与流扰动的结合能否生成仅靠任一攻击类型无法达到的对抗样本?
  • RQ4在 CIFAR-10 和 ImageNet 等真实数据集中,低对比度与高对比度图像区域的普遍性如何?
  • RQ5这两种对抗攻击类型在感知失真差异上的理论基础是什么?

主要发现

  • 当 $C_{\text{max}}(p) < \delta / (2\epsilon)$ 时,对像素 $p$ 的加法扰动所产生的变化大于任何参数为 $\epsilon$ 的流扰动。
  • 当 $E_{\text{max}}(q) \geq \delta / \epsilon$ 时,对像素 $q$ 的流扰动能产生大于任何大小为 $\delta$ 的加法扰动的变化。
  • 两种攻击类型结合可生成仅靠任一方法无法实现的对抗样本,原因在于其在低对比度与高对比度区域中具有互补优势。
  • 在 384 张 CIFAR-10 图像上的实证评估表明,每张图像均至少包含一个满足低对比度条件的像素和一个满足高对比度条件的像素。
  • 理论框架解释了为何联合攻击(如 $\delta + \text{flow}$)比单一类型攻击更有效,因其可利用不同的图像结构特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。