[论文解读] A Comprehensive guide to Bayesian Convolutional Neural Network with Variational Inference
本论文介绍基于 Bayes by Backprop 的贝叶斯卷积神经网络,通过变分推断,使用两次卷积操作来计算均值和方差以量化不确定性,并将其应用于图像分类、超分辨率和生成对抗网络。它还讨论了剪枝和效率改进。
Artificial Neural Networks are connectionist systems that perform a given task by learning on examples without having prior knowledge about the task. This is done by finding an optimal point estimate for the weights in every node. Generally, the network using point estimates as weights perform well with large datasets, but they fail to express uncertainty in regions with little or no data, leading to overconfident decisions. In this paper, Bayesian Convolutional Neural Network (BayesCNN) using Variational Inference is proposed, that introduces probability distribution over the weights. Furthermore, the proposed BayesCNN architecture is applied to tasks like Image Classification, Image Super-Resolution and Generative Adversarial Networks. The results are compared to point-estimates based architectures on MNIST, CIFAR-10 and CIFAR-100 datasets for Image CLassification task, on BSD300 dataset for Image Super Resolution task and on CIFAR10 dataset again for Generative Adversarial Network task. BayesCNN is based on Bayes by Backprop which derives a variational approximation to the true posterior. We, therefore, introduce the idea of applying two convolutional operations, one for the mean and one for the variance. Our proposed method not only achieves performances equivalent to frequentist inference in identical architectures but also incorporate a measurement for uncertainties and regularisation. It further eliminates the use of dropout in the model. Moreover, we predict how certain the model prediction is based on the epistemic and aleatoric uncertainties and empirically show how the uncertainty can decrease, allowing the decisions made by the network to become more deterministic as the training accuracy increases. Finally, we propose ways to prune the Bayesian architecture and to make it more computational and time effective.
研究动机与目标
- 将贝叶斯学习引入 CNN 以表达预测不确定性并对训练进行正则化。
- 提出一种基于 Bayes by Backprop 的高效变分推断方法用于 CNN 权重。
- 展示如何进行两次卷积操作(均值和方差)并将局部重参数化应用于 CNN。
- 展示不确定性估计(知识不确定性与本体不确定性)以及训练过程中不确定性如何下降。
- 探索剪枝策略(L1 正则化)以在保持精度的同时减少参数数量。
提出的方法
- 采用 Bayes by Backprop 来近似对 CNN 权重的真实后验分布,使用变分分布 q(w) 。
- 用高斯变分后验来表示权重不确定性,并通过两次顺序卷积(一个用于均值,一个用于方差)学习均值和方差。
- 对 CNN 应用局部重参数化技巧,以在卷积层中采样激活值而非权重,从而提升计算效率。
- 推导并优化变分自由能(KL 散度项加上对数似然的期望)以训练模型。
- 使用 L1 正则化来剪枝非关键权重,并对剪枝后的模型进行微调以恢复性能。
- 将贝叶斯 CNN 扩展到分类以外的任务,包括图像超分辨率和生成对抗网络。
实验结果
研究问题
- RQ1Bayes by Backprop 是否能够高效地应用于卷积神经网络以产生经过校准的不确定性估计?
- RQ2两次卷积方法(均值与方差)在性能和正则化方面相对于点估计的 CNN 有何不同?
- RQ3贝叶斯 CNN 对图像相关任务中的知识不确定性和本体不确定性有何影响?
- RQ4在不牺牲精度的前提下,不确定性感知的 CNN 是否能够有效剪枝,以及这在 SR 和 GAN 任务上如何扩展?
- RQ5相对于常规架构,Bayesian CNN 在标准数据集(如 MNIST、CIFAR)上是否具备竞争力?
主要发现
- 具有变分推断的贝叶斯 CNN 在与可比模型相同的模型上可以达到与点估计架构相当的性能。
- 不确定性被分解为知识不确定性和本体不确定性,并且随着训练准确率的提高,不确定性下降,从而导致更确定的决策。
- 两次卷积操作方案使得在不使参数总量翻倍的情况下学习权重的均值和方差成为可能。
- 局部重参数化技巧通过在卷积层中采样激活而非权重来加速训练。
- 通过 L1 正则化进行剪枝可以在几乎不损失预测性能的情况下减少参数数量,从而提高模型效率。
- 贝叶斯框架在图像分类、图像超分辨率和 GAN 任务中得到验证,并与非贝叶斯基线进行比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。