[论文解读] Evaluating the Robustness of Neural Networks: An Extreme Value Theory Approach
本文提出 CLEVER,一种基于局部李普希茨常数、通过极值理论估计的对抗攻击无关的神经网络鲁棒性度量,并在如 ResNet、Inception-v3、MobileNet 等大型模型上进行验证。
The robustness of neural networks to adversarial examples has received great attention due to security implications. Despite various attack approaches to crafting visually imperceptible adversarial examples, little has been developed towards a comprehensive measure of robustness. In this paper, we provide a theoretical justification for converting robustness analysis into a local Lipschitz constant estimation problem, and propose to use the Extreme Value Theory for efficient evaluation. Our analysis yields a novel robustness metric called CLEVER, which is short for Cross Lipschitz Extreme Value for nEtwork Robustness. The proposed CLEVER score is attack-agnostic and computationally feasible for large neural networks. Experimental results on various networks, including ResNet, Inception-v3 and MobileNet, show that (i) CLEVER is aligned with the robustness indication measured by the $\\ell_2$ and $\\ell_\\infty$ norms of adversarial examples from powerful attacks, and (ii) defended networks using defensive distillation or bounded ReLU indeed achieve better CLEVER scores. To the best of our knowledge, CLEVER is the first attack-independent robustness metric that can be applied to any neural network classifier.
研究动机与目标
- 提出一种全面的鲁棒性度量,其独立于攻击方法。
- 将鲁棒性与分类器输出差异的局部李普希茨常数界限联系起来。
- 提出一种可扩展的估计方法,利用极值理论来估计跨李普希茨常数。
- 在大规模架构和有防御的网络上演示 CLEVER,以显示其与基于攻击的扰动的一致性。
提出的方法
- 利用分类器输出的李普希茨连续性推导对最小对抗扰动的正式下界。
- 为 f_c(x) - f_j(x) 定义跨李普希茨常数 L_q^j,并建立 beta_L = min_{j≠c} (f_c(x0) - f_j(x0)) / L_q^j 作为鲁棒性下界。
- 通过在扰动球内取样梯度并用反威布尔极值分布来建模它们的最大值来估计局部跨李普希茨常数。
- 对批次最大值使用极大似然估计以得到 a_W 作为局部李普希茨界的估计值。
- 将 CLEVER 计算为 CLEVER = g(x0) / a_W(针对性攻击)或在无目标情况下对目标取最小值,并受扰动半径 R 的界限。
- 从经验上验证梯度范数样本在 KS 检验中拟合反威布尔分布且具有高 p 值。
- 在 ImageNet、CIFAR-10 和 MNIST 上使用 ResNet-50、Inception-v3 和 MobileNet 评估 CLEVER,且使用如防御蒸馏和有界 ReLU 等防御。
实验结果
研究问题
- RQ1是否可以为神经网络定义一种对攻击无关的鲁棒性度量,该度量适用于任意架构并能扩展到大型模型?
- RQ2所提出的 CLEVER 分数是否与来自强大、特定攻击的扰动在不同范数和网络类型上的相关性?
- RQ3极值理论是否能为高维神经网络中的局部李普希茨常数提供可靠而高效的估计?
- RQ4有防御的网络是否表现出更高的 CLEVER 分数,与在攻击下鲁棒性的改善一致?
- RQ5在标准数据集和架构中,CLEVER 与基于攻击的鲁棒性度量相比如何?
主要发现
- CLEVER 是一种对攻击无关且可应用于大型神经网络分类器的度量。
- CLEVER 分数与对抗样本的 L2 和 Linf 扰动所指示的鲁棒性一致。
- 有防御的网络(防御蒸馏、界限 ReLU)获得比未防御的对应网络更好的 CLEVER 分数。
- 在取样区域中的梯度范数样本很好地拟合了反威布尔分布(KS 检验 p 值高),支持基于 EVT 的估计方法。
- CLEVER 展示了对 ImageNet 模型(ResNet-50、Inception-v3、MobileNet)的可扩展性,并且在跨范数的实际鲁棒性方面具有相关性。
- CLEVER 提供了一个正式的鲁棒性保障框架,通过跨李普希茨常数扩展到非可微网络(例如基于 ReLU 的网络)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。