Skip to main content
QUICK REVIEW

[论文解读] Implicit Weight Uncertainty in Neural Networks

Nick Pawlowski, Brock, Andrew|arXiv (Cornell University)|Nov 3, 2017
Adversarial Robustness in Machine Learning参考文献 29被引用 65
一句话总结

BbH 使用超网络作为隐式分布来建模神经网络中的权重不确定性,在对 MNIST 和 CIFAR5 的对抗攻击具有鲁棒性、获得具有竞争力的准确度和较强的不确定性估计的同时,且可扩展到现代架构。

ABSTRACT

Modern neural networks tend to be overconfident on unseen, noisy or incorrectly labelled data and do not produce meaningful uncertainty measures. Bayesian deep learning aims to address this shortcoming with variational approximations (such as Bayes by Backprop or Multiplicative Normalising Flows). However, current approaches have limitations regarding flexibility and scalability. We introduce Bayes by Hypernet (BbH), a new method of variational approximation that interprets hypernetworks as implicit distributions. It naturally uses neural networks to model arbitrarily complex distributions and scales to modern deep learning architectures. In our experiments, we demonstrate that our method achieves competitive accuracies and predictive uncertainties on MNIST and a CIFAR5 task, while being the most robust against adversarial attacks.

研究动机与目标

  • 在现实世界的决策中,需要对神经网络的不确定性进行可靠估计的动机。
  • 提出 Bayes by Hypernet (BbH),使用隐式分布来对权重不确定性进行建模。
  • 实现可扩展的变分贝叶斯推断,利用超网络生成权重样本。
  • 在 MNIST 和 CIFAR5 上将 BbH 与贝叶斯基线和频率派基线进行比较评估。
  • 分析后验分布,比较 BbH 相对于其他方法的复杂性。

提出的方法

  • 将权重 w 建模为由参数 θ 的超网络 G 产生的样本:w = G(z | θ),其中 z ~ p(z)。
  • 对隐式分布进行处理,并使用对抗样式训练通过密度比估计器(基于核的 KL 近似)来逼近 ELBO。
  • 对权重使用标准正态先验,并将权重逐一独立处理(d=1)以便进行 KL 估计。
  • 训练具有3层隐藏层的超网络来生成多层感知机的权重,并比较不同架构(每层一个 G;逐层 G_l;或分片 G_l)。
  • 在 MNIST 和 CIFAR5 上将 BbH 与 MC-Dropout、BbB、深集成、MNF 和 MAP 进行比较,预测时使用 100 个后验样本。
  • 研究对抗性攻击的鲁棒性,并通过熵值 AUC 度量来量化预测不确定性。

实验结果

研究问题

  • RQ1BbH 是否在预测准确性方面与现有贝叶斯和频率派方法相当?
  • RQ2BbH 能否为数据集内外的数据产生有意义且鲁棒的预测不确定性?
  • RQ3BbH 如何扩展到现代架构(如 ResNet),并保持不确定性估计与鲁棒性?
  • RQ4与其他变分方法相比,BbH 的后验权重分布在定性方面有哪些特征?
  • RQ5超网络架构的选择以及辅助输入 z 如何影响性能与不确定性?

主要发现

  • BbH 实现具有竞争力的准确率,同时具有比多数基线更高的预测不确定性,且对对抗性攻击尤为鲁棒。
  • 在 MNIST 上,BbH 比多种方法获得更高的 MNIST AUC 和异常值 AUC,同时错误率和运行时间具有竞争力。
  • 在 CIFAR5 上,BbH 在错误率和预测不确定性方面具有竞争力,且运行时间低于一些贝叶斯基线。
  • BbH 产生比 MNF 更复杂、更多模态的后验权重分布,捕捉权重之间的相关性。
  • BbH 展现出对更深架构(如 ResNet-32)的可扩展性,具备竞争力的准确性与不确定性,以及较强的对抗鲁棒性。
  • 对隐式权重的基于核的 KL 估计在可扩展性的同时,使结果接近分析解 BbB。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。