[论文解读] Understanding Measures of Uncertainty for Adversarial Example Detection
该论文分析不同不确定性度量(预测熵、互信息、softmax 方差)在对抗样本检测中的表现,解释为何 MI 有效,指出 dropout 的局限,并提出基于概率的集成以改进不确定性估计,在 MNIST 以及猫狗数据的实验中。
Measuring uncertainty is a promising technique for detecting adversarial examples, crafted inputs on which the model predicts an incorrect class with high confidence. But many measures of uncertainty exist, including predictive en- tropy and mutual information, each capturing different types of uncertainty. We study these measures, and shed light on why mutual information seems to be effective at the task of adversarial example detection. We highlight failure modes for MC dropout, a widely used approach for estimating uncertainty in deep models. This leads to an improved understanding of the drawbacks of current methods, and a proposal to improve the quality of uncertainty estimates using probabilistic model ensembles. We give illustrative experiments using MNIST to demonstrate the intuition underlying the different measures of uncertainty, as well as experiments on a real world Kaggle dogs vs cats classification dataset.
研究动机与目标
- 研究不同不确定性度量对对抗输入以及数据流形内与流形外数据的响应。
- 解释为何互信息在检测对抗样本时可能优于其他不确定性度量。
- 识别 MC dropout 在捕获完整贝叶斯不确定性方面的局限性。
- 提出基于集合的扩展以改进不确定性估计。
- 在 MNIST 和真实世界的 Cats vs Dogs 数据集上展示发现。
提出的方法
- 回顾贝叶斯神经网络和通过 dropout 作为近似的变分推断。
- 定义并比较不确定性度量:预测熵、互信息(MI)以及基于 MC dropout 的估计。
- 通过理论展开将 softmax 方差与 MI 联系起来,以解释经验上的有效性。
- 在潜在空间和图像空间中可视化不确定性,以识别 dropout 的失效模式。
- 使用 MC dropout 与集成方法,在 MNIST 插值与 ASIRRA 的 Cats vs Dogs 数据集上评估基于不确定性的检测。
实验结果
研究问题
- RQ1预测熵、MI 与 softmax 方差在对抗输入与非对抗输入中的表现如何?
- RQ2与预测熵不同,MI 是否能够将远离数据流形的输入与在流形上的模糊输入区分开?
- RQ3在表示模型不确定性方面,MC dropout 的失败模式有哪些,集合方法能否缓解它们?
- RQ4基于不确定性的防御方法能否从玩具数据集推广到像 Cats vs Dogs 这样的真实数据集?
主要发现
- 互信息和预测熵在远离训练数据流形的输入上都上升,但 MI 更可靠地区分流离流形的对抗输入与在流形上的模糊输入。
- Softmax 方差与 MI 相关,可以解释为何简单的方差不确定性有时能作为 MI 的代理,但它可能错过 MI 所捕捉的细微之处。
- MC dropout 低估后验不确定性,揭示潜在空间中模型对无意义样本过度自信的空白; dropout 模型的集成缓解了其中一些空白。
- dropout 模型的集合(多次初始化)更好地逼近后验并减少无端自信的预测,从而提高对抗输入的鲁棒性。
- 在真实世界的 Cats vs Dogs 数据集上,基于 MI 的不确定性在对抗输入与善意输入之间实现有意义的区分,在某些场景下优于熵;熵由于固有的本征不确定性可能产生较高的假阳性。
- 本研究强调,通过基于贝叶斯原则的方法改进不确定性估计,即可在不进行对抗性专门训练的情况下提高对抗样本的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。