[论文解读] Characterizing Adversarial Subspaces Using Local Intrinsic Dimensionality
引入 Local Intrinsic Dimensionality (LID) 来表征 DNN 中的对抗区域,并证明基于 LID 的检测在多种攻击和数据集上可以优于 KD/BU 检测器。
Deep Neural Networks (DNNs) have recently been shown to be vulnerable against adversarial examples, which are carefully crafted instances that can mislead DNNs to make errors during prediction. To better understand such attacks, a characterization is needed of the properties of regions (the so-called 'adversarial subspaces') in which adversarial examples lie. We tackle this challenge by characterizing the dimensional properties of adversarial regions, via the use of Local Intrinsic Dimensionality (LID). LID assesses the space-filling capability of the region surrounding a reference example, based on the distance distribution of the example to its neighbors. We first provide explanations about how adversarial perturbation can affect the LID characteristic of adversarial regions, and then show empirically that LID characteristics can facilitate the distinction of adversarial examples generated using state-of-the-art attacks. As a proof-of-concept, we show that a potential application of LID is to distinguish adversarial examples, and the preliminary results show that it can outperform several state-of-the-art detection measures by large margins for five attack strategies considered in this paper across three benchmark datasets. Our analysis of the LID characteristic for adversarial regions not only motivates new directions of effective adversarial defense, but also opens up more challenges for developing new attacks to better understand the vulnerabilities of DNNs.
研究动机与目标
- 在 DNN 表征中推动基于维度的对抗区域理解。
- 提出并定义 Local Intrinsic Dimensionality (LID) 作为局部距离分布的度量。
- 通过实证表明 LID 能在不同层和攻击下区分对抗数据与正常/有噪声数据。
- 证明基于 LID 的检测器在多个数据集和攻击上优于现有的 KD 和 BU 检测器。
- 讨论对抗性防御和攻击分析的含义。
提出的方法
- 基于参考点周围距离分布的局部增长来定义 LID。
- 使用 k 个最近邻的最大似然估计(等式4中的 MLE 公式)来估计 LID。
- 在 DNN 的所有变换层中使用激活作为特征来计算 LID。
- 为训练数据生成对抗样本和噪声样本以构建基于 LID 的检测器。
- 使用基于 LID 的特征训练逻辑回归分类器,以将对抗样本与普通/有噪声样本分离。
- 在 MNIST、CIFAR-10 和 SVHN 上对五种攻击 (FGM, BIM-a, BIM-b, JSMA, Opt) 评估检测器。
实验结果
研究问题
- RQ1LID 是否能够捕捉对抗区域的固有维度属性?
- RQ2基于 LID 的特征是否在多种攻击和数据集上有效地区分对抗样本与正常/有噪声输入?
- RQ3LID 在不同网络层(卷积层与稠密/softmax 层)以及攻击下的表现有何差异?
- RQ4基于 LID 的检测器是否能在不同的攻击策略之间泛化?
主要发现
| 数据集 | 特征 | FGM | BIM-a | BIM-b | JSMA | Opt |
|---|---|---|---|---|---|---|
| MNIST | KD | 78.12 | 98.14 | 98.61 | 68.77 | 95.15 |
| MNIST | BU | 32.37 | 91.55 | 25.46 | 88.74 | 71.30 |
| MNIST | KD+BU | 82.43 | 99.20 | 98.81 | 90.12 | 95.35 |
| MNIST | LID | 96.89 | 99.60 | 99.83 | 92.24 | 99.24 |
| CIFAR-10 | KD | 64.92 | 68.38 | 98.70 | 85.77 | 91.35 |
| CIFAR-10 | BU | 70.53 | 81.60 | 97.32 | 87.36 | 91.39 |
| CIFAR-10 | KD+BU | 70.40 | 81.33 | 98.90 | 88.91 | 93.77 |
| CIFAR-10 | LID | 82.38 | 82.51 | 99.78 | 95.87 | 98.94 |
| SVHN | KD | 70.39 | 77.18 | 99.57 | 86.46 | 87.41 |
| SVHN | BU | 86.78 | 84.07 | 86.93 | 91.33 | 87.13 |
| SVHN | KD+BU | 86.86 | 83.63 | 99.52 | 93.19 | 90.66 |
| SVHN | LID | 97.61 | 87.55 | 99.72 | 95.07 | 97.60 |
- 对抗样本的 LID 估计值始终高于正常样本或有噪声样本,特别是在更深的层中。
- 基于 LID 的检测器在所有测试的攻击和数据集上均优于 KD 和 BU 检测器,Opt 攻击在 MNIST 上达到 99.24% 的 AUC。
- 基于 LID 的判别在不同网络层上保持鲁棒,并在更深的层中显示出更强的分离性。
- 在简单攻击(如 FGM)上训练的检测器可以泛化以检测更复杂的攻击。
- LID 相较于 KD 对参数变化更稳定,并且需要数据集特定的调参。
- 跨攻击的对抗区域具有相似的维度属性,使得跨攻击的检测成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。