QUICK REVIEW

[论文解读] Overpruning in Variational Bayesian Neural Networks

Brian L. Trippe, Richard E. Turner|arXiv (Cornell University)|Jan 18, 2018

Gaussian Processes and Bayesian Inference参考文献 12被引用 24

一句话总结

本文识别出一种名为'变分过度剪枝'的病态行为——在变分贝叶斯神经网络中，更富表达性的变分族（例如全协方差）会因过度剪除隐藏单元而降低性能。作者表明，对输出权重学习高精度、零均值的后验分布，会导致输入权重与数据的条件独立，从而在不提升数据拟合度的情况下有效降低模型复杂度，解释了为何更简单的近似方法（如权重噪声）往往优于更富表达性的方法。

ABSTRACT

The motivations for using variational inference (VI) in neural networks differ significantly from those in latent variable models. This has a counter-intuitive consequence; more expressive variational approximations can provide significantly worse predictions as compared to those with less expressive families. In this work we make two contributions. First, we identify a cause of this performance gap, variational over-pruning. Second, we introduce a theoretically grounded explanation for this phenomenon. Our perspective sheds light on several related published results and provides intuition into the design of effective variational approximations of neural networks.

研究动机与目标

调查为何在贝叶斯神经网络中，更富表达性的变分近似有时会比更简单的近似产生更差的预测性能。
识别这种性能退化现象的根本原因，特别是在应用于神经网络的变分推断背景下。
为具有学习方差的变分贝叶斯神经网络中出现的过度剪枝现象提供理论解释。
澄清先前工作中存在的反直觉现象，例如在精度损失极小的情况下出现极高剪枝率，以及变分dropout中丢弃概率趋向于1。
通过揭示在表达性族中过度剪枝的风险，指导有效变分近似的构建。

提出的方法

作者分析变分自由能（VFE）目标，并将其分解为期望对数似然和从先验出发的KL散度。
他们证明，当输出权重 $ v_j $ 的后验集中在零且方差很小时，对应的隐藏单元将变得不活跃，其输入权重 $ w_{j,i} $ 与数据解耦。
这导致 $ p(w_{j,i} | v_j = 0, \text{data}) = p(w_{j,i} | \alpha) $，即输入权重恢复到先验分布，从而实现对单元的剪枝。
该机制在不提升数据拟合度的情况下降低了VFE中的复杂度惩罚，从而人为降低自由能。
他们通过在UCI回归数据集上比较多种变分族（均值场高斯、全协方差、权重噪声）来实证验证该现象。
理论分析表明，过度剪枝源于模型拟合度与先验复杂度之间的权衡，尤其当输出权重后验坍缩至零时更为显著。

实验结果

研究问题

RQ1为何在贝叶斯神经网络中，更富表达性的变分近似有时会比更简单的近似产生更差的预测性能？
RQ2在全秩协方差等表达性族中，为何会出现反直觉的性能退化？
RQ3输出权重后验坍缩至零如何导致整个隐藏单元的剪枝？
RQ4为何像变分dropout和权重噪声等方法会表现出高稀疏性或剪枝，而精度损失却微乎其微？
RQ5何种理论机制解释了在具有学习方差的变分贝叶斯神经网络中观察到的过度剪枝现象？

主要发现

在全部六个UCI回归数据集上，全协方差（FC）变分族的表现始终劣于均值场（MF）族，尽管其表达能力更强。
权重噪声（WN）不包含学习方差，无法剪枝单元，因此在所有数据集上表现出最一致的性能。
均值场（MF）和FC近似均遭受过度剪枝，当输出权重 $ v_j $ 被高置信度估计为零时，隐藏单元实际上被移除。
理论分析表明，当 $ q(v_j) \approx \delta(0) $ 时，输入权重 $ w_{j,i} $ 与数据条件独立，恢复到先验分布，从而降低模型复杂度。
这种过度剪枝机制通过使后验更接近先验来降低变分自由能，而非通过提升数据拟合度，因此具有误导性。
该现象解释了先前观察到的现象，例如在精度损失极小的情况下出现98%的权重剪枝，以及变分dropout中丢弃概率趋向于1。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。