Skip to main content
QUICK REVIEW

[论文解读] Idealised Bayesian Neural Networks Cannot Have Adversarial Examples: Theoretical and Empirical Study.

Yarin Gal, Lewis Smith|arXiv (Cornell University)|Jun 2, 2018
Adversarial Robustness in Machine Learning参考文献 13被引用 2
一句话总结

本文证明,在满足两个充分条件的前提下,理想化的贝叶斯神经网络(BNN)无法存在对抗性样本,从理论上和实证上说明了对抗性样本源于模型的不完美性。使用HMC推理的近理想化BNN表明,认知不确定性与数据流形密度相关,解释了MC正则化为何能作为防御手段,并揭示了近似BNN的新攻击/防御动态。

ABSTRACT

We prove, under two sufficient conditions, that idealised models can have no adversarial examples. We discuss which idealised models satisfy our conditions, and show that idealised Bayesian neural networks (BNNs) satisfy these. We continue by studying near-idealised BNNs using HMC inference, demonstrating the theoretical ideas in practice. We experiment with HMC on synthetic data derived from MNIST for which we know the ground-truth image density, showing that near-perfect epistemic uncertainty correlates to density under image manifold, and that adversarial images lie off the manifold in our setting. This suggests why MC dropout, which can be seen as performing approximate inference, has been observed to be an effective defence against adversarial examples in practice; We highlight failure-cases of non-idealised BNNs relying on dropout, suggesting a new attack for dropout models and a new defence as well. Lastly, we demonstrate the defence on a cats-vs-dogs image classification task with a VGG13 variant.

研究动机与目标

  • 建立贝叶斯神经网络在何种理论条件下可被证明对对抗性样本具有内在鲁棒性的条件。
  • 研究为何MC正则化这一近似推理方法在实践中被证明是有效的对抗性防御手段。
  • 识别依赖于正则化的非理想化BNN中的失效模式,从而提出新的攻击与防御策略。
  • 使用HMC推理在具有已知真实图像密度的合成MNIST衍生数据上验证理论洞察。

提出的方法

  • 理论分析证明,满足两个充分条件的理想化BNN可被证明不存在对抗性样本。
  • 使用HMC推理来近似近理想化BNN的后验分布,从而实现对理论结论的实证验证。
  • 从MNIST流形生成合成数据,以创建具有已知图像密度和真实分布的受控环境。
  • 测量并关联认知不确定性与数据密度,以评估对抗性样本是否位于真实数据流形之外。
  • 基于非理想化BNN中的失效模式,提出一种针对基于正则化的模型的新攻击方法,并提出相应的防御机制。
  • 在使用VGG13变体的猫 vs 狗图像分类任务上评估所提出的防御机制。

实验结果

研究问题

  • RQ1在何种理论条件下,贝叶斯神经网络可被证明完全不受对抗性样本影响?
  • RQ2近理想化BNN中的认知不确定性如何与底层数据流形密度相关?
  • RQ3为何MC正则化作为近似推理方法,能有效防御对抗性样本?
  • RQ4在使用正则化的非理想化BNN中会浮现哪些失效模式,以及如何利用或缓解这些模式?
  • RQ5理想化模型的理论洞见能否被转化为现实世界模型的实际防御机制?

主要发现

  • 满足两个充分条件的理想化贝叶斯神经网络可被证明不存在对抗性样本。
  • 使用HMC推理训练的近理想化BNN表明,高认知不确定性与高数据密度区域相关,表明对抗性样本位于真实数据流形之外。
  • 在合成MNIST衍生设置中,对抗性样本始终位于图像流形之外,支持了其利用分布间隙的假设。
  • MC正则化作为防御手段的有效性,源于其近似理想化BNN的认知不确定性的能力。
  • 基于其未能捕捉完整后验不确定性,识别出针对基于正则化模型的新攻击,揭示了新的漏洞。
  • 所提出的防御机制在使用VGG13变体的猫 vs 狗分类任务中优于标准正则化,证明了其实际适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。