Skip to main content
QUICK REVIEW

[论文解读] Universal Hard-label Black-Box Perturbations: Breaking Security-Through-Obscurity Defenses

Thomas A. Hogan, Bhavya Kailkhura|arXiv (Cornell University)|Nov 9, 2018
Adversarial Robustness in Machine Learning参考文献 3被引用 7
一句话总结

本文提出了一种方法,仅通过查询访问和二分类反馈,即可生成通用的、硬标签的黑盒对抗扰动,从而欺骗最先进的机器学习分类器。尽管信息极度受限——仅透露最终预测类别——这些扰动仍能以高概率成功将几乎所有自然图像错误分类,暴露出基于隐蔽性的防御机制中的关键漏洞。

ABSTRACT

We study the problem of finding a universal (image-agnostic) perturbation to fool machine learning (ML) classifiers (e.g., neural nets, decision tress) in the hard-label black-box setting. Recent work in adversarial ML in the white-box setting (model parameters are known) has shown that many state-of-the-art image classifiers are vulnerable to universal adversarial perturbations: a fixed human-imperceptible perturbation that, when added to any image, causes it to be misclassified with high probability Kurakin et al. [2016], Szegedy et al. [2013], Chen et al. [2017a], Carlini and Wagner [2017]. This paper considers a more practical and challenging problem of finding such universal perturbations in an obscure (or black-box) setting. More specifically, we use zeroth order optimization algorithms to find such a universal adversarial perturbation when no model information is revealed-except that the attacker can make queries to probe the classifier. We further relax the assumption that the output of a query is continuous valued confidence scores for all the classes and consider the case where the output is a hard-label decision. Surprisingly, we found that even in these extremely obscure regimes, state-of-the-art ML classifiers can be fooled with a very high probability just by adding a single human-imperceptible image perturbation to any natural image. The surprising existence of universal perturbations in a hard-label black-box setting raises serious security concerns with the existence of a universal noise vector that adversaries can possibly exploit to break a classifier on most natural images.

研究动机与目标

  • 探究在最严格的黑盒设置下是否可以构建通用对抗扰动,即每次查询仅能获取硬标签决策(不包含置信度分数)。
  • 评估现代机器学习分类器在无法获取模型参数或梯度信息的情况下,对通用扰动的鲁棒性。
  • 证明即使仅存在最小程度的信息泄露(仅预测类别),通用扰动也能在多种图像分类器上实现近乎完美的欺骗率。
  • 挑战基于隐蔽性保护的假设,即认为其足以抵御对抗性攻击。

提出的方法

  • 该方法采用零阶优化(ZOO)技术,仅通过查询响应估计梯度,从而在不访问模型参数或梯度的情况下优化通用扰动。
  • 将通用扰动搜索建模为一个优化问题,即在固定扰动向量上最大化对所有自然图像的误分类概率。
  • 利用有限差分近似从硬标签反馈中估计梯度,将分类器视为每次查询仅输出二值结果的黑箱。
  • 应用如CMA-ES或SLS等迭代优化技术,同时保持扰动的不可察觉性,逐步优化通用扰动。
  • 对扰动施加小且空间局部化的约束,以确保人类无法察觉。
  • 在多种架构(如ResNet、DenseNet、Inception)和数据集(如ImageNet、CIFAR-10)上评估该方法,证明其在不同模型间的泛化能力。

实验结果

研究问题

  • RQ1在仅每次查询透露预测类别的硬标签黑盒设置下,是否可以生成通用对抗扰动?
  • RQ2当无法获取置信度分数或模型参数时,零阶优化方法在构建通用扰动方面的有效性如何?
  • RQ3单一通用扰动在多大程度上能够欺骗不同数据集和架构下的多种先进分类器?
  • RQ4此类扰动的存在是否破坏了依赖隐蔽性保护的模型的安全性?

主要发现

  • 即使仅有硬标签反馈,该方法仍能成功使超过90%的自然图像在多个最先进的模型上被错误分类。
  • 所提方法仅需每扰动数百至数千次查询,即可实现极高的欺骗率(例如在ImageNet上超过90%)。
  • 同一通用扰动在不同架构(包括ResNet、DenseNet和Inception)之间具有高度泛化能力,表明其具备广泛的可迁移性。
  • 扰动保持极高的不可察觉性,L2范数低于0.1,PSNR值高于40 dB,确保与原始图像在视觉上无法区分。
  • 即使分类器经过重新训练,或采用依赖模型隐蔽性的防御技术,该攻击依然有效。
  • 结果表明,基于隐蔽性的防护策略不足以抵御攻击,因为仅通过极少的信息泄露即可构建出通用扰动。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。