QUICK REVIEW

[论文解读] Query-efficient Meta Attack to Deep Neural Networks

Jiawei Du, Hu Zhang|arXiv (Cornell University)|Jun 6, 2019

Adversarial Robustness in Machine Learning参考文献 33被引用 30

一句话总结

本文提出了一种查询高效的元攻击方法，用于深度神经网络的黑盒对抗攻击，通过元学习从先前的攻击模式中提炼可泛化的先验知识。通过使用坐标梯度估计在少量查询下微调元攻击者，该方法在 MNIST、CIFAR10 和 tiny-ImageNet 上的攻击成功率显著高于当前最先进基线方法，且查询次数大幅减少。

ABSTRACT

Black-box attack methods aim to infer suitable attack patterns to targeted DNN models by only using output feedback of the models and the corresponding input queries. However, due to lack of prior and inefficiency in leveraging the query and feedback information, existing methods are mostly query-intensive for obtaining effective attack patterns. In this work, we propose a meta attack approach that is capable of attacking a targeted model with much fewer queries. Its high queryefficiency stems from effective utilization of meta learning approaches in learning generalizable prior abstraction from the previously observed attack patterns and exploiting such prior to help infer attack patterns from only a few queries and outputs. Extensive experiments on MNIST, CIFAR10 and tiny-Imagenet demonstrate that our meta-attack method can remarkably reduce the number of model queries without sacrificing the attack performance. Besides, the obtained meta attacker is not restricted to a particular model but can be used easily with a fast adaptive ability to attack a variety of models.The code of our work is available at https://github.com/dydjw9/MetaAttack_ICLR2020/.

研究动机与目标

解决现有黑盒攻击方法因低效利用有限输出反馈而导致的高查询成本问题。
开发一种基于元学习的方法，从先前的攻击模式中提取并利用可泛化的先验知识。
通过少样本微调实现元攻击者对新目标模型的快速适应，仅需极少查询。
在减少查询次数和降低对抗扰动幅度的同时，实现高攻击成功率。
确保元攻击者在无需从头开始重新训练的情况下，可在多种模型和数据集上实现泛化。

提出的方法

在一组预训练模型上使用元学习（MAML 风格）训练元攻击者，以学习不同架构间梯度模式的先验分布。
使用坐标梯度估计方法，仅从黑盒模型返回的 top-k 类概率中近似梯度。
仅使用少量查询对目标模型上的元攻击者进行微调，以适应目标模型的梯度分布。
使用微调后元攻击者的估计梯度更新对抗噪声，实现高效且有针对性的扰动搜索。
利用元训练模型的先验知识指导优化过程，从而减少找到有效对抗样本所需的查询次数。
通过在元训练过程中调整超参数 q（top-k 分数）和 β（学习率缩放因子），平衡查询效率与攻击质量。

实验结果

研究问题

RQ1元学习能否有效用于从先前攻击中构建梯度模式的先验知识，从而在黑盒设置下提升查询效率？
RQ2元训练的攻击者在无需重新训练的情况下，能在多大程度上泛化到不同数据集和模型架构？
RQ3与当前最先进查询高效的黑盒攻击相比，该元攻击方法在查询次数、成功率和扰动幅度方面表现如何？
RQ4在新目标模型上对元攻击者进行少样本微调，是否能显著减少成功攻击所需的查询次数？
RQ5哪些超参数设置（如 q、β）能在查询效率、攻击成功率和扰动大小之间实现最佳平衡？

主要发现

在 CIFAR10 上使用 VGG19 时，所提元攻击方法仅用 3,667 次查询即实现 0.93 的成功率，显著低于 Zoo（119,648 次）、AutoZoom（53,778 次）和 Opt-attack（252,009 次）。
在 tiny-ImageNet 上使用 ResNet34 时，该方法以 12,897 次查询实现 0.54 的成功率，优于 Opt-attack（214,015 次查询）和 Zoo（88,966 次查询）。
与随机初始化的攻击者相比，元训练的攻击者将查询次数减少 30%，L2 扰动幅度降低 16%，证明了元训练的优势。
在 CIFAR10 上训练的元攻击者能很好地泛化到 tiny-ImageNet，对 VGG19 实现 0.55 的成功率，仅用 12,275 次查询，表现出强大的可迁移性。
在新模型上微调元攻击者可实现快速适应，模型在仅几次查询后即达到高性能。
消融实验确认，当 q=500 且 β=4e-3 时，可在成功率、查询效率和扰动大小之间实现最佳平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。