Skip to main content
QUICK REVIEW

[论文解读] GenAttack: Practical Black-box Attacks with Gradient-Free Optimization

Moustafa Alzantot, Yash Sharma|arXiv (Cornell University)|May 28, 2018
Adversarial Robustness in Machine Learning参考文献 33被引用 25
一句话总结

GenAttack 引入了一种无需梯度的黑盒对抗攻击方法,利用遗传算法生成对深度神经网络的不可察觉扰动,同时将查询复杂度显著降低。它在查询效率方面达到当前最先进水平——在 MNIST 上比 ZOO 少 2,126 倍查询,在 CIFAR-10 上少 2,568 倍,在 ImageNet 上少 237 倍,同时成功绕过了诸如集成对抗训练和不可微分输入变换等先进防御机制。

ABSTRACT

Deep neural networks are vulnerable to adversarial examples, even in the black-box setting, where the attacker is restricted solely to query access. Existing black-box approaches to generating adversarial examples typically require a significant number of queries, either for training a substitute network or performing gradient estimation. We introduce GenAttack, a gradient-free optimization technique that uses genetic algorithms for synthesizing adversarial examples in the black-box setting. Our experiments on different datasets (MNIST, CIFAR-10, and ImageNet) show that GenAttack can successfully generate visually imperceptible adversarial examples against state-of-the-art image recognition models with orders of magnitude fewer queries than previous approaches. Against MNIST and CIFAR-10 models, GenAttack required roughly 2,126 and 2,568 times fewer queries respectively, than ZOO, the prior state-of-the-art black-box attack. In order to scale up the attack to large-scale high-dimensional ImageNet models, we perform a series of optimizations that further improve the query efficiency of our attack leading to 237 times fewer queries against the Inception-v3 model than ZOO. Furthermore, we show that GenAttack can successfully attack some state-of-the-art ImageNet defenses, including ensemble adversarial training and non-differentiable or randomized input transformations. Our results suggest that evolutionary algorithms open up a promising area of research into effective black-box attacks.

研究动机与目标

  • 开发一种不依赖梯度计算的实用黑盒攻击方法,以在仅能访问模型查询接口时仍可实施攻击。
  • 提升在高维、大规模模型(如 ImageNet 训练的模型)上生成对抗样本的查询效率。
  • 克服在存在梯度屏蔽防御(如不可微分或随机化输入变换)时基于梯度攻击的局限性。
  • 展示基于种群的进化优化在真实黑盒场景中生成高成功率定向对抗样本的有效性。

提出的方法

  • GenAttack 采用遗传算法执行无梯度优化,通过演化扰动种群以最大化误分类率同时最小化感知度。
  • 其基于模型对目标类别的置信度分数设计适应度函数,引导演化过程生成成功的对抗样本。
  • 采用自适应突变率策略,初期突变率较高以促进探索,随收敛临近逐渐降低以偏向利用。
  • 使用降维技术以提升在高维数据集(如 ImageNet)上的可扩展性和查询效率。
  • 通过在随机变换上计算适应度函数的期望值,使攻击泛化至随机化防御,确保对随机性的鲁棒性。
  • 种群规模经仔细调优以平衡探索与查询成本,实验表明小规模种群(如 6)可实现最优查询效率。

实验结果

研究问题

  • RQ1基于遗传算法的无梯度优化方法是否能显著提升相比现有黑盒攻击的查询效率?
  • RQ2此类方法是否能有效扩展至大规模、高维模型(如 ImageNet 训练的模型)?
  • RQ3基于遗传算法的攻击是否能成功绕过依赖梯度屏蔽或输入随机化的最先进防御机制?
  • RQ4自适应突变率与降维技术如何影响攻击的查询效率与收敛速度?

主要发现

  • 在攻击 MNIST 模型时,GenAttack 的查询次数相比 ZOO 减少了约 2,126 倍。
  • 在 CIFAR-10 上,GenAttack 所需查询次数仅为 ZOO 的 1/2,568,证明其在更复杂数据集上的卓越效率。
  • 在 ImageNet 的 Inception-v3 模型上,GenAttack 的查询次数仅为 ZOO 的 1/237,证明其在大规模模型上的可扩展性。
  • GenAttack 在 ImageNet 上成功攻击了集成对抗训练防御,仅需适度增加查询次数即实现高成功率。
  • 即使 ZOO 完全失效,GenAttack 仍能成功攻击不可微分的输入变换(如位深降低和 JPEG 压缩)。
  • GenAttack 通过将适应度函数泛化为对随机变换的期望值,展现出对随机化防御的鲁棒性,确保了持续的攻击成功率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。