Skip to main content
QUICK REVIEW

[论文解读] Adversarial vulnerability for any classifier

Alhussein Fawzi, Hamza Fawzi|arXiv (Cornell University)|Feb 23, 2018
Adversarial Robustness in Machine Learning被引用 47
一句话总结

本论文推导了对任何分类器都无关的鲁棒性界限,在平滑生成数据模型下,展示对抗扰动的 transferable(转移性),并将分布内鲁棒性与无约束鲁棒性联系起来,在SVHN和CIFAR-10上进行了实证验证。

ABSTRACT

Despite achieving impressive performance, state-of-the-art classifiers remain highly vulnerable to small, imperceptible, adversarial perturbations. This vulnerability has proven empirically to be very intricate to address. In this paper, we study the phenomenon of adversarial perturbations under the assumption that the data is generated with a smooth generative model. We derive fundamental upper bounds on the robustness to perturbations of any classification function, and prove the existence of adversarial perturbations that transfer well across different classifiers with small risk. Our analysis of the robustness also provides insights onto key properties of generative models, such as their smoothness and dimensionality of latent space. We conclude with numerical experimental results showing that our bounds provide informative baselines to the maximal achievable robustness on several datasets.

研究动机与目标

  • 在数据由平滑生成模型生成时,激励并量化任何分类器的鲁棒性上限。
  • 推导将分类改变所需的最小扰动的上界(分布内和无约束)。
  • 建立对抗扰动在不同分类器之间的转移性。
  • 将分布内鲁棒性与无约束鲁棒性和潜在空间扰动联系起来。
  • 在标准数据集上提供经验基准,以使理论界限有背景。

提出的方法

  • 通过平滑生成器 g: Z -> X 建模数据生成,其中 z ~ N(0,I_d)。
  • 将分布内鲁棒性 r_in 和无约束鲁棒性 r_unc 定义为在各自约束下翻转标签所需的最小扰动。
  • 使用高斯等周性不等式来界定当 x = g(z) 时 r_in(x) <= η 的概率。
  • 引入 g 的连续模 ω 以刻画平滑性,并通过 ω^{-1} 将 η 与扰动大小联系起来。
  • 证明若它们在 g(z) 上的风险很小,则分类器之间存在可转移的扰动。
  • 将界扩展到以 Wasserstein 距离近似生成器的情形 W(g_*(ν), μ) ≤ δ,并推导期望鲁棒性界。
  • 提供潜在空间扰动与图像空间扰动之间的构造性联系(r_Z vs r_in/r_unc)。

实验结果

研究问题

  • RQ1当数据由平滑生成模型生成时,对抗扰动鲁棒性的基础且与分类器无关的界限是什么?
  • RQ2在该数据模型下,对抗扰动是否会跨不同分类器转移?
  • RQ3在平滑生成模型下,分布内鲁棒性与无约束鲁棒性如何相关?
  • RQ4生成器的近似误差(到真实数据的 Wasserstein 距离)如何影响鲁棒性界?
  • RQ5这些界限对设计更鲁棒的生成模型和分类器提供了哪些见解?

主要发现

  • 上界表明,当潜在空间维度很高且生成器很平滑时,许多点在分布内对扰动的鲁棒性很小。
  • 在等概率类别下,界变得更紧,并随类别数 K 增大而增大,表明类别越多越容易被愚弄。
  • 对抗扰动可以在具有小联合风险的分类器之间转移,界限中包含一个用于分类器不一致性的 δ 项。
  • 如果通过最近邻构造对分类器进行变换,则其无约束鲁棒性至少是其分布内鲁棒性的二分之一。
  • 来自 SVHN 和 CIFAR-10 实验的证据表明,该界限提供了非空的基线,并且潜在空间鲁棒性与图像空间结果相当;分布内鲁棒性与无约束鲁棒性之间的差距随着模型复杂度而变化。
  • 结果表明,高维、平滑的生成模型可能意味着微小扰动就能愚弄任何判别任务,除非满足人类感知鲁棒性约束。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。