QUICK REVIEW
[论文解读] Defensive Distillation is Not Robust to Adversarial Examples
Nicholas Carlini, David Wagner|arXiv (Cornell University)|Jul 14, 2016
Adversarial Robustness in Machine Learning参考文献 4被引用 237
一句话总结
该论文表明防御性蒸馏对对抗样本并不提供鲁棒性;通过对攻击做出小幅修改,在防御性蒸馏网络上(MNIST)以 4.7% 的像素变化实现 96.4% 的定向错分类。
ABSTRACT
We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.
研究动机与目标
- 评估防御性蒸馏是否真正使神经网络对抗对抗样本更为鲁棒。
- 分析现有对抗攻击如何与防御性蒸馏模型相互作用。
- 展示对 Papernot 的 L0 攻击对蒸馏网络的有效修改。
- 量化在 MNIST 上使用蒸馏时攻击的成功率和像素变化需求。
提出的方法
- 使用 TensorFlow,在 MNIST 数据集上用一个9层网络重新实现防御性蒸馏。
- 应用 Papernot 的 L0 对抗攻击并分析其在蒸馏网络与基线网络上的表现。
- 通过将 softmax 输入按 T 进行重新缩放,修改攻击以考虑蒸馏模型中对数几率幅度的增加。
- 调整基于梯度的像素选择,使其作用于网络输出而非 logits。
- 在 T=100 时评估攻击成功率和平均像素变化,并与非蒸馏基线进行比较。
实验结果
研究问题
- RQ1防御性蒸馏是否降低了定向对抗攻击的成功率?
- RQ2对攻击进行小幅修改是否可以击败像防御性蒸馏这样的防御?
- RQ3蒸馏网络与标准网络相比,所需的像素变化数量有何差异?
- RQ4温度 T 对对蒸馏网络的攻击有效性有何影响?
主要发现
- 防御性蒸馏降低了早期攻击的表观效果,但对修改后的攻击并不鲁棒。
- 当 T=100 时,修改后的攻击在蒸馏网络上实现 96.4% 的定向错分类。
- 平均需要改变 36.4 个像素(4.7%)在蒸馏网络上获得成功,而在非蒸馏基线中需要 45 个像素(约 5.86%)。
- 一种使用网络实际输出(经过适当重新缩放)的改编攻击,在温度 1 至 100 的范围内击败了防御性蒸馏。
- 与未受保护的网络相比,在最强的测试攻击下,蒸馏模型并未显示出显著的鲁棒性提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。