QUICK REVIEW

[论文解读] Bayesian Deep Ensembles via the Neural Tangent Kernel

Bobby He, Balaji Lakshminarayanan|arXiv (Cornell University)|Jul 11, 2020

Gaussian Processes and Bayesian Inference参考文献 62被引用 28

一句话总结

本文通过在标准深度集成训练中引入一个随机的、不可训练的函数作为每个集成成员的正则化项，提出了一种贝叶斯深度集成方法，从而在无限宽度极限下借助神经正切核（NTK）实现有效的后验预测解释。该方法生成的预测比标准深度集成更加保守且具备不确定性感知能力，在回归与分类任务中均能紧密逼近解析的后验预测分布，且在分布外泛化性能上优于基线方法。

ABSTRACT

We explore the link between deep ensembles and Gaussian processes (GPs) through the lens of the Neural Tangent Kernel (NTK): a recent development in understanding the training dynamics of wide neural networks (NNs). Previous work has shown that even in the infinite width limit, when NNs become GPs, there is no GP posterior interpretation to a deep ensemble trained with squared error loss. We introduce a simple modification to standard deep ensembles training, through addition of a computationally-tractable, randomised and untrainable function to each ensemble member, that enables a posterior interpretation in the infinite width limit. When ensembled together, our trained NNs give an approximation to a posterior predictive distribution, and we prove that our Bayesian deep ensembles make more conservative predictions than standard deep ensembles in the infinite width limit. Finally, using finite width NNs we demonstrate that our Bayesian deep ensembles faithfully emulate the analytic posterior predictive when available, and can outperform standard deep ensembles in various out-of-distribution settings, for both regression and classification tasks.

研究动机与目标

为深度集成提供一个严谨的贝叶斯解释，尽管其在实践中表现优异，但目前尚缺乏此类理论基础。
利用神经正切核（NTK）框架，在无限宽度极限下弥合深度集成与高斯过程（GPs）之间的差距。
开发一种计算上可行的标准深度集成训练修改方法，使其在NTK框架下能够实现精确的后验采样。
评估所提出的贝叶斯深度集成是否在不确定性校准和分布外鲁棒性方面优于标准深度集成及其他基线方法。
证明当解析后验预测分布存在时，该方法能忠实模拟其行为，尤其在简单且宽的网络架构中表现优异。

提出的方法

提出一种修改后的深度集成训练流程，其中每个基学习器在优化过程中被正则化至一个独立抽取的、随机的且不可训练的函数。
利用神经正切核（NTK）框架证明，在无限宽度极限下，所得集成近似于高斯过程的后验预测分布。
利用NTK证明，该修改后的集成可为神经网络函数 $ f(\cdot, \bm{\theta}) $ 生成有效的后验样本，从而支持贝叶斯推断。
在NTK框架下引入随机先验，以在参数线性假设成立（宽网络中局部成立）的前提下实现精确后验采样。
将该方法应用于回归与分类任务，使用MLP和CNN模型，并与标准深度集成及随机先验基线方法比较预测性能与不确定性校准效果。
采用误差-置信度图与预测熵直方图，评估在分布内与分布外数据集（如NotMNIST和SVHN）上的不确定性校准表现。

实验结果

研究问题

RQ1对标准深度集成训练进行简单修改，是否可在无限宽度极限下获得有效的贝叶斯后验预测解释？
RQ2所提出的贝叶斯深度集成在不确定性校准与分布外鲁棒性方面，相较于标准深度集成与随机先验基线方法表现如何？
RQ3当解析后验预测分布存在时，该方法在多大程度上能忠实模拟其行为？
RQ4集成规模与NTK超参数对预测性能与不确定性校准有何影响？
RQ5能否利用NTK框架为深度集成推导出一个严谨的贝叶斯解释，从而解决贝叶斯深度学习领域长期存在的开放性问题？

主要发现

在分布外测试集上，所提出的贝叶斯深度集成显著降低了错误率，尤其在NotMNIST数据集上，置信度阈值 $ \tau = 0.6 $ 时错误率降低了15%。
在MNIST与NotMNIST基准测试中，基于NTKGP的集成方法在分布内与分布外性能上均与解析的NTKGP后验预测分布高度一致。
预测熵直方图显示，贝叶斯深度集成在分布外数据上做出更保守的预测，表现为NotMNIST与SVHN数据集上的熵值更高。
该方法在不确定性校准方面优于标准深度集成与随机先验（RP）基线，尤其在分布外泛化任务中表现突出。
对于较小的集成规模，贝叶斯深度集成仍能提供良好的不确定性校准效果，且随着集成规模增大，性能趋近于解析后验。
该方法在懒学习（lazy learning） regime 下最为有效；当置信预测无害时，其性能可能低于标准深度集成，但可通过NTK超参数调优加以缓解。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。