QUICK REVIEW
[论文解读] Extending Defensive Distillation
Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|May 15, 2017
Adversarial Robustness in Machine Learning参考文献 19被引用 84
一句话总结
论文提出一种扩展的防御性蒸馏方法,使用基于 dropout 的不确定性和一个离群类来提高对对抗样本的鲁棒性,在白盒和黑盒攻击下进行评估。
ABSTRACT
Machine learning is vulnerable to adversarial examples: inputs carefully modified to force misclassification. Designing defenses against such inputs remains largely an open problem. In this work, we revisit defensive distillation---which is one of the mechanisms proposed to mitigate adversarial examples---to address its limitations. We view our results not only as an effective way of addressing some of the recently discovered attacks but also as reinforcing the importance of improved training techniques.
研究动机与目标
- 激发在机器学习中对抗对抗样本的鲁棒防御的需求。
- 扩展防御蒸馏以解决梯度屏蔽和迁移性弱点。
- 在蒸馏模型训练过程中引入不确定性感知标注和离群类。
- 使用 MNIST 在白盒和黑盒攻击场景下评估鲁棒性。
- 评估准确性、误报率以及对抗样本的检测/恢复之间的权衡。
提出的方法
- 在标准数据及原始标签上训练第一个模型 f,并使用其预测来标记第二个模型 f^d。
- 为蒸馏模型维持 softmax 温度 T=1,并在输出中增加离群类。
- 使用基于 dropout 的多次随机前向传播来量化 f 的预测不确定性,从而获得 logit 的均值和方差。
- 定义新的标注向量 k(x),将正确类别概率与归一化的不确定性耦合以将概率质量分配给离群类。
- 使用新标注向量训练 f^d,并加入辅助损失项以惩罚正确类别与其他类别的排序错误,加强不确定性处理。
- 在 MNIST 上评估对白盒和黑盒攻击(FGM、JSMA、AdaDelta)的鲁棒性, dropout 在输入前设为 0.2,卷积层后设为 0.5。
实验结果
研究问题
- RQ1相较于原始防御蒸馏,扩展后的防御蒸馏是否降低了对基于梯度的攻击和迁移性攻击的易感性?
- RQ2不确定性感知标注和离群类是否能在保持对合法输入的准确性的同时提升对对抗样本的检测与恢复?
- RQ3在白盒和黑盒威胁模型下,鲁棒性是否在不依赖梯度屏蔽的情况下得到维持?
- RQ4alpha(不确定性权重)、 dropout 通道次数 N 与模型在干净数据和对抗样例上的性能之间有哪些权衡?
主要发现
- 蒸馏模型在合法输入上达到 97.28% 的准确度,相较之下未防御基线为 98.41%。
- 误报保持在 1% 以下。
- 未防御模型在对抗输入上的错误分类率很高(FGM 90.8%、JSMA 92.2%、AdaDelta 96.0%)。
- 扩展防御在测试点邻域内对白箱攻击的鲁棒性有所提高,并保持与黑箱鲁棒性相当,减缓梯度屏蔽问题。
- 增加 alpha 会提高对对抗样本的检测/恢复,但可能增加对合法输入的误报。
- 使用多次 dropout 估计(约 20 次)可使鲁棒性指标收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。