Skip to main content
QUICK REVIEW

[论文解读] A Bayesian encourages dropout

Shin‐ichi Maeda|arXiv (Cornell University)|Dec 22, 2014
Gaussian Processes and Bayesian Inference参考文献 11被引用 35
一句话总结

本文为神经网络中的Dropout提供了贝叶斯解释,将其视为近似贝叶斯模型平均,其中Dropout率被视作可学习参数以优化边缘似然。通过将Dropout视为对模型结构进行贝叶斯推断的近似方法,该方法实现了Dropout率的自适应优化,相较于固定率Dropout,显著提升了权重学习与预测性能。

ABSTRACT

Dropout is one of the key techniques to prevent the learning from overfitting. It is explained that dropout works as a kind of modified L2 regularization. Here, we shed light on the dropout from Bayesian standpoint. Bayesian interpretation enables us to optimize the dropout rate, which is beneficial for learning of weight parameters and prediction after learning. The experiment result also encourages the optimization of the dropout.

研究动机与目标

  • 为Dropout提供正式的贝叶斯解释,将其定位为对神经网络架构的近似贝叶斯模型平均。
  • 将Dropout率视为可学习的超参数,以优化边缘似然,而非固定值。
  • 通过优化的Dropout率近似真实模型结构后验分布,从而改善权重学习与预测性能。
  • 通过允许每个隐藏单元的Dropout率独立调整,扩展标准Dropout算法,提升灵活性与数据自适应性。

提出的方法

  • 本文将Dropout建模为层次贝叶斯过程,其中每个权重表示为 $ W_{ij} = z_j \tilde{W}_{ij} $,其中 $ z_j \sim \text{Ber}(p_j) $,使得Dropout率 $ p_j $ 可被学习。
  • 通过 $ \sum_{\mathbf{z}} p(\mathbf{y}|\mathbf{x}, \mathbf{z}, \theta) p(\mathbf{z}) $ 对所有子模型进行平均,近似边缘似然 $ \log p(D|\theta) $,其中 $ p(\mathbf{z}) $ 为具有可学习率的伯努利先验。
  • 通过最大化子模型后验下的期望对数似然,优化Dropout率 $ p_j $,从而有效学习最优的模型平均权重。
  • 该方法通过允许每个单元的Dropout率而非固定全局率,推广了标准Dropout,实现更灵活且数据自适应的正则化。
  • 该框架被扩展至结构化模型(如VAR),其中 $ A_k \sim Z^{(k)} \tilde{A}_k $,且 $ Z^{(k)} $ 的元素为可学习的伯努利分布,以建模时变与状态相关的稀疏性。
  • 该方法计算成本高于标准Dropout,但能更准确地逼近贝叶斯模型平均,尤其在高维模型选择问题中表现更优。

实验结果

研究问题

  • RQ1如何在贝叶斯框架下正式解释Dropout,以提升模型泛化能力?
  • RQ2能否将Dropout率优化为可学习参数,以更准确地逼近边缘似然与预测分布?
  • RQ3与固定全局率相比,学习每个单元的Dropout率对权重学习与测试性能有何影响?
  • RQ4与标准Dropout及其他正则化技术相比,该方法在模型选择与预测准确性方面表现如何?
  • RQ5该贝叶斯解释能否扩展至结构化模型(如具有时变与状态相关稀疏性的向量自回归模型)?

主要发现

  • 贝叶斯解释将Dropout视为近似贝叶斯模型平均,其中每个子模型(由Dropout掩码定义)按其后验概率加权。
  • 将Dropout率作为可学习参数进行优化,可更准确逼近边缘似然,从而提升训练与泛化性能。
  • 与固定率标准Dropout相比,该方法在模型复杂度较高的场景下实现了更优的预测性能。
  • 通过分组或约束Dropout率,该方法可实现结构化稀疏模式,从而高效建模时间序列及其他结构化数据。
  • 该方法可推广至其他模型(如VAR),其中对每个变量与滞后使用可学习的Dropout率,可捕捉复杂的稀疏模式。
  • 尽管计算成本高于标准Dropout,但该方法在高维模型选择任务中提供了更精确的贝叶斯近似。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。