Skip to main content
QUICK REVIEW

[论文解读] Robustness of Bayesian Neural Networks to Gradient-Based Attacks

Ginevra Carbone, Matthew Wicker|arXiv (Cornell University)|Feb 11, 2020
Adversarial Robustness in Machine Learning参考文献 40被引用 27
一句话总结

该论文表明,在数据量大、模型过参数化的极限下,由于数据分布的退化特性,贝叶斯神经网络(BNNs)对基于梯度的对抗攻击表现出可证明的鲁棒性。理论分析显示,BNN后验平均下损失函数的期望梯度会消失;在MNIST和Fashion-MNIST上的实验结果证实,使用HMC和VI训练的BNN在保持高准确率的同时也具备鲁棒性,从而逆转了确定性网络中常见的准确率-鲁棒性权衡现象。

ABSTRACT

Vulnerability to adversarial attacks is one of the principal hurdles to the adoption of deep learning in safety-critical applications. Despite significant efforts, both practical and theoretical, the problem remains open. In this paper, we analyse the geometry of adversarial attacks in the large-data, overparametrized limit for Bayesian Neural Networks (BNNs). We show that, in the limit, vulnerability to gradient-based attacks arises as a result of degeneracy in the data distribution, i.e., when the data lies on a lower-dimensional submanifold of the ambient space. As a direct consequence, we demonstrate that in the limit BNN posteriors are robust to gradient-based adversarial attacks. Experimental results on the MNIST and Fashion MNIST datasets with BNNs trained with Hamiltonian Monte Carlo and Variational Inference support this line of argument, showing that BNNs can display both high accuracy and robustness to gradient based adversarial attacks.

研究动机与目标

  • 理解在大数据、过参数化条件下,贝叶斯神经网络(BNNs)对抗性鲁棒性的理论根源。
  • 探究BNN是否能够克服确定性深度学习模型中常见的准确率-鲁棒性权衡现象。
  • 为与低维数据流形相关的对抗性脆弱性提供几何解释,并说明BNN如何通过后验平均缓解该问题。
  • 使用HMC和变分推断在MNIST和Fashion-MNIST数据集上实证验证理论结论。
  • 探讨BNN对标准基于梯度的攻击(如FGSM和PGD)的实际影响,评估模型容量和推理方法的作用。

提出的方法

  • 在大数据、过参数化极限下进行理论分析,重点关注数据分布的几何结构及其在低维子流形上的支撑。
  • 论文证明,在此极限下,损失函数关于输入数据的梯度的后验平均会消失,意味着对基于梯度的攻击具有免疫性。
  • 该分析将确定性网络中的对抗性脆弱性与数据退化联系起来——特别是当数据位于低维流形上时。
  • 通过哈密顿蒙特卡洛(HMC)和变分推断(VI)近似BNN后验,对MNIST和Fashion-MNIST进行实证验证。
  • 通过原始输入与对抗输入之间softmax输出的L-infinity范数差异来量化鲁棒性,作为误分类的平滑代理指标。
  • 大规模实验评估了数千个BNN在不同架构和推理方法下的表现,分析了准确率与鲁棒性之间的相关性。

实验结果

研究问题

  • RQ1为何在大数据极限下,贝叶斯神经网络对基于梯度的对抗攻击表现出鲁棒性?
  • RQ2BNN中的后验平均是否消除了损失函数的期望梯度,从而中和基于梯度的攻击?
  • RQ3在使用HMC或VI训练的BNN中,确定性网络中观察到的准确率-鲁棒性权衡是否依然存在?
  • RQ4在有限数据情形下,模型宽度和推理方法(HMC与VI)如何影响BNN的鲁棒性?
  • RQ5数据流形的几何结构能否解释确定性网络中对抗性脆弱性的出现,以及BNN中该问题的缓解机制?

主要发现

  • 在大数据、过参数化极限下,BNN后验下损失函数的期望梯度消失,提供了对基于梯度的对抗攻击的理论免疫性。
  • 在MNIST和Fashion-MNIST上的实验表明,使用HMC训练的BNN表现出准确率与鲁棒性之间的正相关关系,逆转了典型的准确率-鲁棒性权衡。
  • 对于使用HMC训练的BNN,鲁棒性随模型宽度增加而提升,支持了过参数化增强鲁棒性的理论主张。
  • 使用变分推断(VI)训练的BNN鲁棒性低于HMC,且准确率-鲁棒性相关性不够稳定,可能由于近似误差或模式崩溃所致。
  • 随着后验样本数量的增加,BNN中梯度的幅值减小,实证支持了梯度抑制的理论主张。
  • 两种标准的基于梯度的攻击——FGSM和PGD——在BNN上难以成功生成对抗样本,尤其是在使用HMC训练时,进一步证实了其实际鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。