Skip to main content
QUICK REVIEW

[论文解读] Defensive Distillation is Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|Jul 14, 2016
Adversarial Robustness in Machine Learning参考文献 4被引用 237
一句话总结

该论文表明防御性蒸馏对对抗样本并不提供鲁棒性;通过对攻击做出小幅修改,在防御性蒸馏网络上(MNIST)以 4.7% 的像素变化实现 96.4% 的定向错分类。

ABSTRACT

We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.

研究动机与目标

  • 评估防御性蒸馏是否真正使神经网络对抗对抗样本更为鲁棒。
  • 分析现有对抗攻击如何与防御性蒸馏模型相互作用。
  • 展示对 Papernot 的 L0 攻击对蒸馏网络的有效修改。
  • 量化在 MNIST 上使用蒸馏时攻击的成功率和像素变化需求。

提出的方法

  • 使用 TensorFlow,在 MNIST 数据集上用一个9层网络重新实现防御性蒸馏。
  • 应用 Papernot 的 L0 对抗攻击并分析其在蒸馏网络与基线网络上的表现。
  • 通过将 softmax 输入按 T 进行重新缩放,修改攻击以考虑蒸馏模型中对数几率幅度的增加。
  • 调整基于梯度的像素选择,使其作用于网络输出而非 logits。
  • 在 T=100 时评估攻击成功率和平均像素变化,并与非蒸馏基线进行比较。

实验结果

研究问题

  • RQ1防御性蒸馏是否降低了定向对抗攻击的成功率?
  • RQ2对攻击进行小幅修改是否可以击败像防御性蒸馏这样的防御?
  • RQ3蒸馏网络与标准网络相比,所需的像素变化数量有何差异?
  • RQ4温度 T 对对蒸馏网络的攻击有效性有何影响?

主要发现

  • 防御性蒸馏降低了早期攻击的表观效果,但对修改后的攻击并不鲁棒。
  • 当 T=100 时,修改后的攻击在蒸馏网络上实现 96.4% 的定向错分类。
  • 平均需要改变 36.4 个像素(4.7%)在蒸馏网络上获得成功,而在非蒸馏基线中需要 45 个像素(约 5.86%)。
  • 一种使用网络实际输出(经过适当重新缩放)的改编攻击,在温度 1 至 100 的范围内击败了防御性蒸馏。
  • 与未受保护的网络相比,在最强的测试攻击下,蒸馏模型并未显示出显著的鲁棒性提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。