[论文解读] AutoZOOM: Autoencoder-based Zeroth Order Optimization Method for Attacking Black-box Neural Networks
AutoZOOM 提出了一种基于自适应随机梯度估计和通过自编码器或双线性插值实现的降维技术的查询高效黑盒攻击框架。与 ZOO 相比,它在 MNIST、CIFAR-10 和 ImageNet 上将模型查询次数减少了至少 93%,同时保持了较高的攻击成功率和视觉质量。
Recent studies have shown that adversarial examples in state-of-the-art image classifiers trained by deep neural networks (DNN) can be easily generated when the target model is transparent to an attacker, known as the white-box setting. However, when attacking a deployed machine learning service, one can only acquire the input-output correspondences of the target model; this is the so-called black-box attack setting. The major drawback of existing black-box attacks is the need for excessive model queries, which may give a false sense of model robustness due to inefficient query designs. To bridge this gap, we propose a generic framework for query-efficient black-box attacks. Our framework, AutoZOOM, which is short for Autoencoder-based Zeroth Order Optimization Method, has two novel building blocks towards efficient black-box attacks: (i) an adaptive random gradient estimation strategy to balance query counts and distortion, and (ii) an autoencoder that is either trained offline with unlabeled data or a bilinear resizing operation for attack acceleration. Experimental results suggest that, by applying AutoZOOM to a state-of-the-art black-box attack (ZOO), a significant reduction in model queries can be achieved without sacrificing the attack success rate and the visual quality of the resulting adversarial examples. In particular, when compared to the standard ZOO method, AutoZOOM can consistently reduce the mean query counts in finding successful adversarial examples (or reaching the same distortion level) by at least 93% on MNIST, CIFAR-10 and ImageNet datasets, leading to novel insights on adversarial robustness.
研究动机与目标
- 解决现有依赖低效坐标梯度估计的黑盒攻击所面临的高查询成本问题。
- 在仅具有输入-输出访问权限的情况下,提升零阶优化在攻击已部署机器学习模型时的查询效率。
- 在最小化模型查询次数的同时,保持高攻击成功率和低畸变的对抗样本。
- 通过减少生成有效对抗样本所需的查询次数,实现对已部署 DNN 模型的实际鲁棒性评估。
- 提供一种通用、即插即用的框架,兼容现有的基于梯度估计的黑盒攻击方法。
提出的方法
- 提出一种自适应随机梯度估计策略,通过动态调整用于梯度近似的随机方向数量,实现查询次数与扰动畸变之间的平衡。
- 采用解码模块——可选预训练的自编码器(在无标签数据上训练)或双线性插值操作(BiLIN)——将低维潜在空间中的扰动投影回原始图像空间。
- 通过在学习到的低维潜在空间中操作来降低攻击维度,从而在零阶优化中提升收敛速度和查询效率。
- 利用零阶优化的 $O(\sqrt{d/T})$ 收敛速率,从理论上证明降维在降低查询复杂度方面的优势。
- 集成两阶段攻击流程:首先使用粗粒度梯度估计实现快速成功;其次在增加查询预算的前提下,通过更高精度的梯度平均方法进一步优化畸变。
- 使用双线性插值操作(BiLIN)作为自编码器的轻量化、免训练替代方案,适用于实时部署并降低计算开销。
实验结果
研究问题
- RQ1自适应随机梯度估计是否能在不降低攻击成功率或视觉质量的前提下减少黑盒攻击中的查询次数?
- RQ2通过自编码器或双线性插值实现的降维在零阶优化中对黑盒攻击的查询效率提升程度如何?
- RQ3零阶优化的收敛速率在攻击维度降低后如何变化?这一特性是否可用于减少查询需求?
- RQ4是否可以通过动态调整梯度估计参数,有效管理畸变与查询次数之间的权衡?
- RQ5无需训练的基于双线性插值的降维方法是否足以实现与全维攻击相比的显著查询减少?
主要发现
- 在 MNIST、CIFAR-10 和 ImageNet 上,与标准 ZOO 方法相比,AutoZOOM 将平均查询次数减少了至少 93%。
- 在 ImageNet 上,AutoZOOM 将初始成功所需的查询次数减少了高达 99.39%,达到相同 $L_2$ 畸变水平时减少了 99.35%,显著优于基线方法。
- 通过自编码器实现的降维(AutoZOOM-AE)在 ImageNet 上将查询次数减少了至少 95%,在 MNIST 和 CIFAR-10 上减少了 35–40%,表明其在输入维度增加时具有强大的可扩展性。
- 基于双线性插值的变体(AutoZOOM-BiLIN)在无需额外训练成本的情况下实现了与 AutoZOOM-AE 相当的性能,使其非常适合实际部署。
- 在成功后使用更高平均次数的梯度估计(如 $q=4$)进行畸变精炼,可进一步减小扰动幅度,但超过 $q=4$ 后增益微乎其微,表明精炼效果已趋于饱和。
- 理论分析证实,降维可提升零阶优化的收敛性,其 $O(\sqrt{d/T})$ 收敛速率为观察到的查询效率提升提供了理论依据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。