Skip to main content
QUICK REVIEW

[论文解读] DeepSafe: A Data-driven Approach for Checking Adversarial Robustness in Neural Networks

Divya Gopinath, Guy Katz|arXiv (Cornell University)|Oct 2, 2017
Adversarial Robustness in Machine Learning参考文献 18被引用 58
一句话总结

DeepSafe 提出一个数据引导的方法,通过标签引导的聚类将输入空间划分为安全区域,并使用形式化验证(Relupex)来证明鲁棒性或暴露对抗样本,包括定向鲁棒性保证。

ABSTRACT

Deep neural networks have become widely used, obtaining remarkable results in domains such as computer vision, speech recognition, natural language processing, audio recognition, social network filtering, machine translation, and bio-informatics, where they have produced results comparable to human experts. However, these networks can be easily fooled by adversarial perturbations: minimal changes to correctly-classified inputs, that cause the network to mis-classify them. This phenomenon represents a concern for both safety and security, but it is currently unclear how to measure a network's robustness against such perturbations. Existing techniques are limited to checking robustness around a few individual input points, providing only very limited guarantees. We propose a novel approach for automatically identifying safe regions of the input space, within which the network is robust against adversarial perturbations. The approach is data-guided, relying on clustering to identify well-defined geometric regions as candidate safe regions. We then utilize verification techniques to confirm that these regions are safe or to provide counter-examples showing that they are not safe. We also introduce the notion of targeted robustness which, for a given target label and region, ensures that a NN does not map any input in the region to the target label. We evaluated our technique on the MNIST dataset and on a neural network implementation of a controller for the next-generation Airborne Collision Avoidance System for unmanned aircraft (ACAS Xu). For these networks, our approach identified multiple regions which were completely safe as well as some which were only safe for specific labels. It also discovered several adversarial perturbations of interest.

研究动机与目标

  • 推动对神经网络的鲁棒性评估不仅限于点对点的对抗性检查,目标是在输入区域上认证鲁棒性。
  • 开发一种数据引导的聚类方法,产生具有一致标签的、定义良好的安全区域。
  • 在每个区域内提供形式化验证,以保证鲁棒性或暴露反例。
  • 引入定向鲁棒性,保证在区域内对特定目标标签的错误分类进行保护。
  • 展示在安全关键的 ACAS Xu 网络和 MNIST 分类器上的可扩展性和适用性。

提出的方法

  • 引入标签引导聚类,扩展 kMeans 以通过递归分割混合标签簇来产生具有一致标签的密集簇。
  • 若簇内半径范围内的所有输入具有相同的真实标签,则将该簇定义为安全区域;将半径收缩为 r = 到质心的平均距离,以提高一致性的可能性。
  • 将鲁棒性检查表示为定向属性:对于标签为 l 的簇,验证从质心到距离 r 的任意输入不映射到任何其他标签 l'(Eq. 2)。
  • 使用 Reluplex 验证簇假设的否定(Eq. 2)对每个潜在目标标签 l' 以认证定向鲁棒性(或产生对抗样本)。
  • 通过降序质心分数对目标标签进行优先排序,以优化验证工作量;在小簇内进行验证以提高可行性并实现并行化。
  • 通过在聚类中使用 L2 距离,在 Reluplex 验证中使用 L1 作为上界来处理距离度量,以保留所发现扰动的有效性;通过界限收紧和簇级包容性来提高可扩展性。

实验结果

研究问题

  • RQ1标签引导聚类是否能够创建适合鲁棒性验证的小且密集、单一标签的区域?
  • RQ2在这些区域内的验证是否能给出正式的鲁棒性保证,包括针对特定错误分类的定向鲁棒性?
  • RQ3与逐点对抗性搜索相比,基于簇的鲁棒性验证有多大可扩展性?
  • RQ4在安全关键网络(如 ACAS Xu)和标准数据集(如 MNIST)中,会出现哪种类型的对抗扰动和安全区域?

主要发现

  • 该方法在 ACAS Xu 中识别了多个完全安全区域,以及若干对特定标签安全的区域。
  • 一些簇仅对特定目标标签安全,表明区域鲁棒性具有细微差别。
  • 该方法发现了有研究意义的对抗扰动,并突出显示需要更多训练数据的区域。
  • ACAS Xu 实验在分析的 210 个簇中得到 125 个安全簇、52 个定向安全簇、以及 33 个超时(表 1)。
  • 进一步的簇细节显示在不同切片和半径下有标注为安全、定向安全或不安全的簇(表 2)。
  • 该技术通过将鲁棒性分解为区域化的证明义务并实现簇的并行验证,展示了可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。