[论文解读] Query-Efficient Black-box Adversarial Examples (superceded)
该论文提出了一种基于自然演化策略(NES)的查询高效黑盒对抗攻击方法,与以往方法相比,生成对抗样本所需的查询次数减少了2–3个数量级。该方法提出了一种新颖的算法,用于在部分信息设置下进行目标攻击——即仅能访问前k个标签——并首次成功实现了对谷歌云视觉API的针对性攻击,该API是一个拥有数千个类别的大规模商业分类器。
Note that this paper is superceded by "Black-Box Adversarial Attacks with Limited Queries and Information." Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.
研究动机与目标
- 解决现有黑盒对抗攻击在真实系统中因查询成本过高而不切实际的问题。
- 在严格黑盒约束下,开发一种可靠且无需替代模型的对抗样本生成方法。
- 实现在仅能访问前k个类别预测结果的部分信息设置下的目标攻击。
- 证明在黑盒设置下生成对变换具有鲁棒性的对抗样本的可行性。
- 首次对类似谷歌云视觉API这样的大规模商业分类器实施针对性攻击。
提出的方法
- 使用自然演化策略(NES)通过随机高斯扰动的有限差分估计梯度,避免了对替代模型的需求。
- 在扰动的搜索分布上应用NES,以高效优化对抗损失函数。
- 将NES重新表述为在随机高斯基底上的有限差分估计,从而提供理论基础并提升查询效率。
- 提出一种新的部分信息设置下的目标攻击算法,该设置下仅可访问前k个类别预测结果。
- 将NES与期望变换(EOT)方法结合,生成对变换具有鲁棒性的对抗样本。
- 采用两阶段优化:第一阶段使用NES进行非目标攻击;第二阶段利用部分信息反馈进行目标优化。
实验结果
研究问题
- RQ1是否能在黑盒设置下,以远低于现有有限差分法或替代模型方法的查询次数生成对抗样本?
- RQ2当仅能访问前k个类别标签和得分时,是否仍可实现目标黑盒攻击?
- RQ3是否能在无梯度访问的情况下,高效地在黑盒设置下生成对变换具有鲁棒性的对抗样本?
- RQ4所提出的方法是否能成功攻击真实世界中的大规模商业分类器,如谷歌云视觉API?
- RQ5在查询效率和可靠性方面,基于NES的梯度估计方法与有限差分方法相比如何?
主要发现
- 所提出的基于NES的方法相比优化后的有限差分方法,查询次数减少了2–3个数量级,在CIFAR-10和ImageNet上均表现出极高效率。
- 通过结合NES与EOT算法,该方法成功生成了首个对变换具有鲁棒性的黑盒对抗样本。
- 成功对谷歌云视觉API实施了目标攻击,该商业系统拥有超过10,000个类别,且仅使用了部分输出信息。
- 攻击成功将滑雪者图像可靠地误分类为“狗”,同时保持了视觉相似性,证明了其在真实部署中的有效性。
- 在受限访问条件下,该方法在查询效率和可靠性方面均优于以往的替代网络和基于有限差分的方法。
- 部分信息攻击算法即使在攻击者无法观测完整类别分布或置信度得分的情况下,也能有效生成目标对抗样本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。