Skip to main content
QUICK REVIEW

[论文解读] Black-box Adversarial Attacks with Limited Queries and Information

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|Apr 23, 2018
Adversarial Robustness in Machine Learning参考文献 30被引用 326
一句话总结

该论文定义了三种现实世界的黑箱威胁模型——查询受限、部分信息和仅标签,并在这些约束下提出了高效查询的攻击方法,能够可靠地产生定向对抗样本,包括对谷歌云视觉 API 的定向攻击。

ABSTRACT

Current neural network-based classifiers are susceptible to adversarial examples even in the black-box setting, where the attacker only has query access to the model. In practice, the threat model for real-world systems is often more restrictive than the typical black-box model where the adversary can observe the full output of the network on arbitrarily many chosen inputs. We define three realistic threat models that more accurately characterize many real-world classifiers: the query-limited setting, the partial-information setting, and the label-only setting. We develop new attacks that fool classifiers under these more restrictive threat models, where previous methods would be impractical or ineffective. We demonstrate that our methods are effective against an ImageNet classifier under our proposed threat models. We also demonstrate a targeted black-box attack against a commercial classifier, overcoming the challenges of limited query access, partial information, and other practical issues to break the Google Cloud Vision API.

研究动机与目标

  • 使现实世界系统的黑箱威胁模型更具现实性并形式化:查询限制、部分信息和仅标签访问。
  • 开发并分析在这些受限访问场景下运行的高效攻击算法。
  • 在大规模数据集(ImageNet)和真实世界系统(谷歌云视觉 API)上证明攻击的有效性。

提出的方法

  • 在查询受限设置中,应用自然进化策略(NES)估计梯度以实现定向对抗样本的有限查询。
  • 使用投影式 PGD(带估计梯度)来构造在 ε-球内的定向对抗扰动。
  • 开发一个部分信息攻击,从目标类别图像开始,在与原始图像的混合和在 top-k 约束下最大化目标类别概率之间交替。
  • 将该方法扩展到仅标签设置,通过引入基于排名和对随机扰动鲁棒性的代理分数,使仅有 top-k 标签也能实现定向攻击。
  • 为每种威胁模型提供一个具体算法并发布源代码以实现可重复性。

实验结果

研究问题

  • RQ1在攻击者对分类器的查询访问受限时,是否能够高效地产生定向对抗样本?
  • RQ2在现实世界的大规模分类器中,部分信息和仅标签约束下,攻击是否仍能保持高成功率?
  • RQ3在这些受限威胁模型下,是否可行攻击商业 API(如谷歌云视觉)?
  • RQ4与现有黑箱方法相比,所 proposed 攻击在查询效率和成功率方面有何差异?

主要发现

  • 查询受限攻击在使用基于 NES 的梯度估计时,利用比以往梯度估计方法显著更少的查询实现高定向成功率(效率提升可达 2–3 个数量级)。
  • 部分信息攻击即使仅可获得前 top-k 概概率,也能稳定地产生定向对抗样本,在 ImageNet 上以实用的查询次数实现高成功率。
  • 仅标签攻击在无法获得分数时仍能成功,利用代理鲁棒性分数和排序信息引导优化。
  • 在部分信息设置下已成功攻击谷歌云视觉 API,展示了所提出方法的现实世界适用性。
  • 在 1000 个 ImageNet 样本、ε=0.05 条件下,查询受限模型的成功率为 99.2%,部分信息模型为 93.6%(约 49,624 次查询),仅标签模型为 90%(约 270 万次查询)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。