[论文解读] Bayesian Recurrent Neural Networks
该论文将 Bayes by Backprop 应用于 RNNs,提出后验锐化,并在具有不确定性估计的前提下展示了语言建模和图像字幕生成的改进。
In this work we explore a straightforward variational Bayes scheme for Recurrent Neural Networks. Firstly, we show that a simple adaptation of truncated backpropagation through time can yield good quality uncertainty estimates and superior regularisation at only a small extra computational cost during training, also reducing the amount of parameters by 80\%. Secondly, we demonstrate how a novel kind of posterior approximation yields further improvements to the performance of Bayesian RNNs. We incorporate local gradient information into the approximate posterior to sharpen it around the current batch statistics. We show how this technique is not exclusive to recurrent neural networks and can be applied more widely to train Bayesian neural networks. We also empirically demonstrate how Bayesian RNNs are superior to traditional RNNs on a language modelling benchmark and an image captioning task, as well as showing how each of these methods improve our model over a variety of other schemes for training them. We also introduce a new benchmark for studying uncertainty for language models so future methods can be easily compared.
研究动机与目标
- 引入一种简单直接的变分贝叶斯方案用于训练 RNNs(BBB),以捕捉权重的不确定性。
- 适应截断的时序反向传播以获得带有 KL 正则化的后验估计。
- 提出后验锐化,使用梯度信息在每个批次中局部自适应后验。
- 在语言建模和图像字幕生成任务上,展示比传统正则化更好的性能。
- 为语言模型的不确定性提供一个新的基准。
提出的方法
- 通过从对角协方差的高斯后验中采样权重,将 Bayes by Backprop 应用于 RNNs。
- 推导带有截断 BPTT 的 RNN 的变分自由能,并将 KL 成本在小批量和序列截断之间分配。
- 引入后验锐化:一个分层后验 q(theta|varphi,(x,y)),利用批次梯度信息来调整 theta。
- 通过 theta = varphi - eta * grad_theta log p(y|varphi,x)(其中 eta 是可学习的)来参数化经锐化的后验 q(theta|varphi,(x,y))。
- 使用蒙特卡洛估计进行训练,并在训练目标中包含 KL 正则化项。
- 在语言建模(Penn Treebank)和图像字幕生成(MSCOCO)基准测试中,展示相对于基线正则化技术的改进。
实验结果
研究问题
- RQ1将 Bayes by Backprop 应用于 RNNs 是否能在预测性能和模型校准方面优于标准正则化?
- RQ2后验锐化是否能降低梯度方差并改善贝叶斯 RNN 的学习?
- RQ3在语言建模和图像字幕生成任务中,贝叶斯 RNN 相对于现有贝叶斯和非贝叶斯方法的表现如何?
- RQ4贝叶斯 RNN 在分布外数据上的不确定性特征是什么?
- RQ5所提出的方法能否推广到超越 RNNs 的其他神经网络架构?
主要发现
- 带 BBB 的贝叶斯 RNN 在 Penn Treebank 上实现与 dropout 基线相比具有竞争力的困惑度。
- 与标准 BBB 相比,后验锐化进一步降低困惑度并改善校准。
- BBB 在 MSCOCO 的图像字幕生成指标(BLUE-4, CIDEr)上超越 Show and Tell 基线。
- 权重裁剪显示许多权重可以在对性能影响有限的情况下被移除(约 80%)。
- BBB 提供的不确定性估计能反映校准,在基于熵的分析中优于 MC-Dropout。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。