[论文解读] Sufficient Conditions for Idealised Models to Have No Adversarial Examples: a Theoretical and Empirical Study with Bayesian Neural Networks
本文证明,满足两个充分条件——准确的信念性不确定性估计与正确的密度估计——的理想化贝叶斯神经网络(BNNs)无论输入密度如何,均可完全消除对抗性样本。通过在类MNIST的合成数据上使用哈密顿蒙特卡洛(HMC)推理,作者表明高信念性不确定性与低数据密度相关,且对抗性样本位于数据流形之外,从而解释了为何MC正则化能作为一种稳健的防御方法。
We prove, under two sufficient conditions, that idealised models can have no adversarial examples. We discuss which idealised models satisfy our conditions, and show that idealised Bayesian neural networks (BNNs) satisfy these. We continue by studying near-idealised BNNs using HMC inference, demonstrating the theoretical ideas in practice. We experiment with HMC on synthetic data derived from MNIST for which we know the ground-truth image density, showing that near-perfect epistemic uncertainty correlates to density under image manifold, and that adversarial images lie off the manifold in our setting. This suggests why MC dropout, which can be seen as performing approximate inference, has been observed to be an effective defence against adversarial examples in practice; We highlight failure-cases of non-idealised BNNs relying on dropout, suggesting a new attack for dropout models and a new defence as well. Lastly, we demonstrate the defence on a cats-vs-dogs image classification task with a VGG13 variant.
研究动机与目标
- 确定理想化模型可被形式化证明对对抗性样本具有鲁棒性的充分条件。
- 探究尽管MC正则化采用近似推理,为何其在检测对抗性样本方面表现出显著的实证成功。
- 揭示基于dropout的实用BNN的局限性,特别是信念性不确定性估计中的“不确定性空洞”问题。
- 提出一种针对MC正则化模型中这些不确定性空洞的新梯度无关攻击方法,并通过集成方法实现缓解。
- 在真实世界图像分类任务中,通过在猫 vs 狗数据集上使用VGG13变体验证理论发现。
提出的方法
- 形式化对抗鲁棒性的两个充分条件:(1) 准确的信念性不确定性估计,(2) 正确的输入密度估计。
- 使用贝叶斯神经网络(BNNs)结合哈密顿蒙特卡洛(HMC)推理,实现理想化、精确的后验推断。
- 构建一个源自MNIST的合成数据集,其输入密度具有已知真实值,用于测试不确定性与密度的相关性。
- 应用互信息(MI)作为信念性不确定性的度量,以检测不同模型中不确定性估计的“空洞”。
- 设计一种无需梯度的攻击方法,通过查询模型置信度,选择远离训练数据且MI低(即在低不确定性区域具有高置信度)的样本。
- 提出一种通过随机初始化的dropout模型集成来缓解不确定性空洞的方法,并在使用Concrete Dropout的VGG13上进行验证。
实验结果
研究问题
- RQ1在何种充分条件下,理想化模型可被保证不存在对抗性样本?
- RQ2BNN中的信念性不确定性与输入流形中的数据密度之间有何相关性?
- RQ3尽管MC正则化采用近似推理,为何其在作为对抗性样本检测器时表现良好?
- RQ4基于dropout的模型中的不确定性空洞是否可被利用,以无需计算梯度的方式生成对抗性样本?
- RQ5与单模型dropout相比,集成推理是否能提升实用BNN中的不确定性校准与鲁棒性?
主要发现
- 满足两个充分条件——准确的信念性不确定性估计与正确的密度估计——的理想化BNN可完全消除对抗性样本。
- 在合成MNIST数据上通过HMC推断的BNN显示出高信念性不确定性与低数据密度之间存在强相关性,且对抗性样本位于数据流形之外。
- 基于MC正则化的模型表现出“不确定性空洞”——即远离训练数据但具有高置信度与低不确定性的区域——使其易受新型无梯度攻击的影响。
- 通过随机初始化的dropout模型集成可显著减少不确定性空洞,相比单模型,其鲁棒性得到提升,VGG13猫 vs 狗任务中AUC从0.63提升至0.77。
- 新型无梯度攻击成功通过针对不确定性空洞生成对抗性“垃圾”图像,其在受控环境下的成功率高于FGM。
- 与确定性模型集成相比,dropout集成在不确定性校准方面表现更优,表明推理中的随机性可提升鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。