QUICK REVIEW

[论文解读] Defensive Distillation is Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|Jul 14, 2016

Adversarial Robustness in Machine Learning参考文献 4被引用 237

一句话总结

该论文表明防御性蒸馏对对抗样本并不提供鲁棒性；通过对攻击做出小幅修改，在防御性蒸馏网络上（MNIST）以 4.7% 的像素变化实现 96.4% 的定向错分类。

ABSTRACT

We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.

研究动机与目标

评估防御性蒸馏是否真正使神经网络对抗对抗样本更为鲁棒。
分析现有对抗攻击如何与防御性蒸馏模型相互作用。
展示对 Papernot 的 L0 攻击对蒸馏网络的有效修改。
量化在 MNIST 上使用蒸馏时攻击的成功率和像素变化需求。

提出的方法

使用 TensorFlow，在 MNIST 数据集上用一个9层网络重新实现防御性蒸馏。
应用 Papernot 的 L0 对抗攻击并分析其在蒸馏网络与基线网络上的表现。
通过将 softmax 输入按 T 进行重新缩放，修改攻击以考虑蒸馏模型中对数几率幅度的增加。
调整基于梯度的像素选择，使其作用于网络输出而非 logits。
在 T=100 时评估攻击成功率和平均像素变化，并与非蒸馏基线进行比较。

实验结果

研究问题

RQ1防御性蒸馏是否降低了定向对抗攻击的成功率？
RQ2对攻击进行小幅修改是否可以击败像防御性蒸馏这样的防御？
RQ3蒸馏网络与标准网络相比，所需的像素变化数量有何差异？
RQ4温度 T 对对蒸馏网络的攻击有效性有何影响？

主要发现

防御性蒸馏降低了早期攻击的表观效果，但对修改后的攻击并不鲁棒。
当 T=100 时，修改后的攻击在蒸馏网络上实现 96.4% 的定向错分类。
平均需要改变 36.4 个像素（4.7%）在蒸馏网络上获得成功，而在非蒸馏基线中需要 45 个像素（约 5.86%）。
一种使用网络实际输出（经过适当重新缩放）的改编攻击，在温度 1 至 100 的范围内击败了防御性蒸馏。
与未受保护的网络相比，在最强的测试攻击下，蒸馏模型并未显示出显著的鲁棒性提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。