Skip to main content
QUICK REVIEW

[论文解读] On the Limitation of Local Intrinsic Dimensionality for Characterizing the Subspaces of Adversarial Examples.

Pei Hsuan Lu, Pin Yu Chen|arXiv (Cornell University)|Feb 12, 2018
Adversarial Robustness in Machine Learning被引用 4
一句话总结

本文研究了局部内在维度(LID)在表征深度神经网络激活中对抗性子空间时的局限性。基于MNIST和CIFAR-10数据集,研究发现LID在面对不同置信度的盲态攻击以及黑盒迁移攻击时,无法可靠捕捉对抗性子空间,揭示了LID在鲁棒性分析中应用的显著局限性。

ABSTRACT

Understanding and characterizing the subspaces of adversarial examples aid in studying the robustness of deep neural networks (DNNs) to adversarial perturbations. Very recently, Ma et al. (ICLR 2018) proposed to use local intrinsic dimensionality (LID) in layer-wise hidden representations of DNNs to study adversarial subspaces. It was demonstrated that LID can be used to characterize the adversarial subspaces associated with different attack methods, e.g., the Carlini and Wagner's (C&W) attack and the fast gradient sign attack. In this paper, we use MNIST and CIFAR-10 to conduct two new sets of experiments that are absent in existing LID analysis and report the limitation of LID in characterizing the corresponding adversarial subspaces, which are (i) oblivious attacks and LID analysis using adversarial examples with different confidence levels; and (ii) black-box transfer attacks. For (i), we find that the performance of LID is very sensitive to the confidence parameter deployed by an attack, and the LID learned from ensembles of adversarial examples with varying confidence levels surprisingly gives poor performance. For (ii), we find that when adversarial examples are crafted from another DNN model, LID is ineffective in characterizing their adversarial subspaces. These two findings together suggest the limited capability of LID in characterizing the subspaces of adversarial examples.

研究动机与目标

  • 评估局部内在维度(LID)在不同攻击类型下表征对抗性子空间的有效性。
  • 研究对抗性攻击中置信度水平变化如何影响LID检测潜在子空间的能力。
  • 评估LID在应用于从不同模型生成的对抗性样本(黑盒迁移攻击)时的表现。
  • 识别LID作为分析深度神经网络表征中对抗性样本几何结构的工具所固有的局限性。
  • 提供实证证据,挑战LID能够可靠捕捉对抗性子空间内在维度的假设。

提出的方法

  • 在MNIST和CIFAR-10数据集上,基于深度神经网络的逐层隐藏表征开展实验。
  • 对使用不同置信度水平生成的对抗性样本应用LID估计。
  • 通过在具有不同置信度水平的对抗性样本上进行集成式LID估计,评估该度量的鲁棒性。
  • 在从另一预训练模型生成的对抗性样本上评估LID(黑盒迁移攻击)。
  • 比较干净样本、对抗性样本及其子空间的LID值,以评估其几何表征能力。
  • 分析LID对超参数(如置信度水平和模型可迁移性)的敏感性。

实验结果

研究问题

  • RQ1对抗性攻击的置信度水平如何影响LID表征相应对抗性子空间的能力?
  • RQ2当对抗性样本以不同置信度水平在集成中生成时,LID能否可靠识别对抗性子空间?
  • RQ3当对抗性样本由不同模型生成(黑盒设置)时,LID是否仍能有效表征对抗性子空间?
  • RQ4在可迁移攻击下,LID在多大程度上反映了对抗性子空间的真实几何结构?
  • RQ5LID作为深度神经网络对抗鲁棒性诊断工具的局限性是什么?

主要发现

  • LID的表现对对抗性攻击中使用的置信度参数极为敏感,随着置信度变化,性能显著下降。
  • 在不同置信度水平的对抗性样本上进行的集成式LID估计表现欠佳,表明子空间检测存在不稳定性。
  • 当对抗性样本由不同模型生成(黑盒迁移)时,LID无法有效表征相应的对抗性子空间。
  • 盲态攻击中置信度可变性与黑盒迁移攻击的结合,揭示了LID在跨不同类型对抗性样本上泛化能力的根本局限性。
  • 这些发现共同表明,LID并非表征深度神经网络中对抗性子空间内在几何结构的可靠或鲁棒度量。
  • 结果挑战了LID可作为探测DNN表征中对抗性样本结构的通用工具的假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。