[论文解读] Global Robustness Evaluation of Deep Neural Networks with Provable Guarantees for the $L_0$ Norm
该论文提出 L0-TRE,一种基于张量的 anytime 方法,可在 $L_0$ 范数下对深度神经网络提供可证明的全局鲁棒性评估,具有收敛保证。该方法迭代计算测试集中最大安全半径的紧致下界和上界,收敛至最优值,同时支持大规模模型(如 ImageNet 分类器)的高效 GPU 加速计算。
Deployment of deep neural networks (DNNs) in safety- or security-critical systems requires provable guarantees on their correct behaviour. A common requirement is robustness to adversarial perturbations in a neighbourhood around an input. In this paper we focus on the $L_0$ norm and aim to compute, for a trained DNN and an input, the maximal radius of a safe norm ball around the input within which there are no adversarial examples. Then we define global robustness as an expectation of the maximal safe radius over a test data set. We first show that the problem is NP-hard, and then propose an approximate approach to iteratively compute lower and upper bounds on the network's robustness. The approach is \emph{anytime}, i.e., it returns intermediate bounds and robustness estimates that are gradually, but strictly, improved as the computation proceeds; \emph{tensor-based}, i.e., the computation is conducted over a set of inputs simultaneously, instead of one by one, to enable efficient GPU computation; and has \emph{provable guarantees}, i.e., both the bounds and the robustness estimates can converge to their optimal values. Finally, we demonstrate the utility of the proposed approach in practice to compute tight bounds by applying and adapting the anytime algorithm to a set of challenging problems, including global robustness evaluation, competitive $L_0$ attacks, test case generation for DNNs, and local robustness evaluation on large-scale ImageNet DNNs. We release the code of all case studies via GitHub.
研究动机与目标
- 为解决在安全与安全关键应用中,深度神经网络在 $L_0$ 范数下缺乏可证明且可扩展的鲁棒性评估问题。
- 定义并计算测试数据集上最大安全半径的期望值作为全局鲁棒性,以捕捉网络对稀疏输入扰动的整体鲁棒性。
- 克服现有对抗攻击方法(缺乏保证)和形式化验证技术(过于缓慢或仅限于小型网络)的局限性。
- 开发一种既适用于大规模模型又提供鲁棒性边界收敛保证的高效方法。
- 支持实际应用,如竞争性 $L_0$ 攻击生成、测试用例合成以及通过显著性图实现的模型可解释性。
提出的方法
- 该方法采用 anytime 算法,逐步改进每个输入的最大安全半径的下界和上界,具有收敛至真实最优值的保证。
- 采用基于张量的计算方式,通过 GPU 加速操作同时处理多个输入,利用并行性提升效率,优于逐个输入的评估方式。
- 将鲁棒性问题建模为约束优化任务,并通过区间传播和抽象细化的迭代优化来收紧边界。
- 利用新型的输入批量张量表示,实现在单个计算图中对整个测试集高效计算边界。
- 通过区间算术和过近似技术,将边界反向传播通过网络各层,确保正确性。
- 通过在测试集上聚合边界并提供收敛保证,同时支持局部鲁棒性评估和全局鲁棒性估计。
实验结果
研究问题
- RQ1我们能否在测试集上对 DNN 的最大 $L_0$-范数安全半径计算出可证明正确的下界和上界,并具有收敛保证?
- RQ2如何在不牺牲形式化保证的前提下,将鲁棒性评估扩展到大规模 DNN(如 ResNet-50 和 VGG-19)?
- RQ3所提方法能否在生成具有可证明最优性的紧致 $L_0$-范数对抗样本方面,优于现有对抗攻击方法?
- RQ4该方法在支持下游任务(如测试用例生成、模型解释和架构设计指导)方面的能力有多大?
- RQ5是否可能设计一种基于张量的 anytime 算法,在保持正确性的同时,实现在真实数据集上的实际效率?
主要发现
- 所提方法 L0-TRE 实现了最大安全半径的下界和上界在可证明收敛至最优值,即使在大规模 ImageNet 模型上也成立。
- L0-TRE 计算出的 $L_0$ 鲁棒性上界比现有对抗攻击方法(如 JSMA、C&W)更紧致,且计算成本显著更低。
- 该方法成功实现了对五个 ImageNet 模型(AlexNet、VGG-16/19、ResNet-50/101)的全局鲁棒性评估,展示了可扩展性和实用性。
- L0-TRE 生成了具有竞争力的 $L_0$-范数对抗样本,其有效性优于基线攻击方法,并具有可证明的最优性保证。
- 该工具支持测试用例生成和显著性图生成,用于可解释性分析,展示了其在鲁棒性评估之外的实用价值。
- 基于张量的设计实现了高效的 GPU 计算,相比逐个输入的顺序评估,显著降低了运行时间,同时保持了正确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。