Skip to main content
QUICK REVIEW

[论文解读] Measuring Neural Net Robustness with Constraints

Osbert Bastani, Yani Ioannou|arXiv (Cornell University)|Jan 1, 2016
Adversarial Robustness in Machine Learning参考文献 17被引用 115
一句话总结

本文提出一种基于约束的线性规划方法,通过估计给定输入周围最小对抗扰动(L∞ 范数)来衡量神经网络的鲁棒性。该方法引入了两种鲁棒性度量——对抗频率和严重性,并表明使用该方法微调的模型在多种评估标准下均表现出更强的鲁棒性,而不会像先前算法生成的模型那样对对抗样本产生过拟合。

ABSTRACT

Despite having high accuracy, neural nets have been shown to be susceptible to adversarial examples, where a small perturbation to an input can cause it to become mislabeled. We propose metrics for measuring the robustness of a neural net and devise a novel algorithm for approximating these metrics based on an encoding of robustness as a linear program. We show how our metrics can be used to evaluate the robustness of deep neural nets with experiments on the MNIST and CIFAR-10 datasets. Our algorithm generates more informative estimates of robustness metrics compared to estimates based on existing algorithms. Furthermore, we show how existing approaches to improving robustness "overfit" to adversarial examples generated using a specific algorithm. Finally, we show that our techniques can be used to additionally improve neural net robustness both according to the metrics that we propose, but also according to previously proposed metrics.

研究动机与目标

  • 为解决目前缺乏客观、可靠的神经网络对抗样本鲁棒性度量方法的问题。
  • 通过最近似对抗样本的 L∞ 距离,将逐点鲁棒性形式化为可度量的属性。
  • 开发一种可扩展且准确的算法,用于估计鲁棒性,避免对特定搜索算法生成的对抗样本产生过拟合。
  • 评估使用现有方法微调鲁棒性的模型是否真正能泛化到训练中使用的特定对抗样本之外。
  • 证明鲁棒性改进不仅符合所提出的度量标准,也与先前的度量标准保持一致。

提出的方法

  • 将鲁棒性 ρ(f, x*) 定义为满足 f(x* + r) ≠ f(x*) 的最小 L∞ 范数扰动 r,将其编码为一个带约束的优化问题。
  • 通过将搜索空间限制在 x* 周围一个凸的、分段线性的区域 Z(x*) 内,近似难以计算的鲁棒性,该区域内网络为线性。
  • 将鲁棒性估计建模为线性规划(LP),利用基于 ReLU 的网络的分段线性结构。
  • 引入一种迭代约束求解优化方法,相比基线方法将 LP 求解速度提升一个数量级。
  • 利用所得算法(ALP)在多个数据集和模型上估计鲁棒性度量——对抗频率和严重性。
  • 使用 ALP 生成的对抗样本来微调模型,并与使用 L-BFGS-B 及其他基线方法微调的模型进行性能比较。

实验结果

研究问题

  • RQ1能否通过一种形式化、可量化的度量方法客观地衡量鲁棒性,从而同时捕捉对抗样本的频率和严重性?
  • RQ2使用对抗样本训练的神经网络的鲁棒性是否依赖于生成这些样本的具体算法?
  • RQ3基于约束的线性规划方法能否提供比现有基于优化的方法(如 L-BFGS-B)更准确的鲁棒性估计?
  • RQ4经过微调以提升鲁棒性的模型在多大程度上会过拟合于特定算法生成的对抗样本?
  • RQ5所提出的方法能否扩展到如 CIFAR-10 上的 NiN 等深层网络?是否能揭示先前未被发现的漏洞?

主要发现

  • 所提出的 ALP 算法在鲁棒性估计方面显著优于 L-BFGS-B 基线方法,尤其在准确检测对抗样本的真实频率和严重性方面表现突出。
  • 使用 L-BFGS-B 算法微调的模型表现出过拟合:尽管在基线算法下表现更鲁棒,但在 ALP 度量下实际鲁棒性更差。
  • ALP 微调的模型在对抗频率(59.6%)上显著降低,同时对抗严重性(3.88 像素)得到改善,相比原始 NiN 模型(61.5% 频率,2.82 像素严重性),表明实现了真正的鲁棒性提升。
  • 在 LeNet 上,ALP 微调的模型在对抗频率和严重性两个指标上均优于 L-BFGS-B 微调的模型,证实前者在不同对抗搜索方法间具有更好的泛化能力。
  • 通过迭代约束处理,ALP 算法相比朴素 LP 求解器实现了 10 倍的速度提升,使深层网络的鲁棒性评估成为可能。
  • 在 CIFAR-10 上,NiN 模型对对抗样本仍高度脆弱,对抗频率达 61.5%,表明当前方法在大规模场景下仍不足以实现高度准确的鲁棒性提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。