QUICK REVIEW

[论文解读] Learnable Bernoulli Dropout for Bayesian Deep Learning

Shahin Boluki, Randy Ardywibowo|arXiv (Cornell University)|Feb 12, 2020

Gaussian Processes and Bayesian Inference参考文献 51被引用 20

一句话总结

该论文提出了一种可学习伯努利丢弃（Learnable Bernoulli Dropout, LBD），一种与模型无关的丢弃方法，将丢弃率视为可通过增强-REINFORCE-合并（Augment-REINFORCE-Merge, ARM）梯度估计器优化的可微分参数。LBD 实现了逐神经元自适应丢弃，提升了深度神经网络中的不确定性量化与准确性，并在与变分自编码器结合时，在协同过滤任务中实现了最先进性能（即 SIVAE 模型）。

ABSTRACT

In this work, we propose learnable Bernoulli dropout (LBD), a new model-agnostic dropout scheme that considers the dropout rates as parameters jointly optimized with other model parameters. By probabilistic modeling of Bernoulli dropout, our method enables more robust prediction and uncertainty quantification in deep models. Especially, when combined with variational auto-encoders (VAEs), LBD enables flexible semi-implicit posterior representations, leading to new semi-implicit VAE~(SIVAE) models. We solve the optimization for training with respect to the dropout parameters using Augment-REINFORCE-Merge (ARM), an unbiased and low-variance gradient estimator. Our experiments on a range of tasks show the superior performance of our approach compared with other commonly used dropout schemes. Overall, LBD leads to improved accuracy and uncertainty estimates in image classification and semantic segmentation. Moreover, using SIVAE, we can achieve state-of-the-art performance on collaborative filtering for implicit feedback on several public datasets.

研究动机与目标

解决固定或人工调参的丢弃率在深度神经网络中的局限性，这些方法可能限制模型的表达能力与泛化性能。
克服现有可学习丢弃方法的不足，这些方法依赖于连续松弛（如 Concrete 或高斯分布），会引入梯度偏差与计算不稳定性。
在完全可微分的框架内，实现丢弃率作为变分参数的端到端训练，同时保持伯努利丢弃的离散性质。
通过在训练过程中学习神经元特定的丢弃概率，提升深度模型的不确定性估计与鲁棒性。
将该框架扩展至无监督学习，通过变分自编码器构建新的半隐式变分自编码器（SIVAE），以提升表征学习能力。

提出的方法

提出一种可学习伯努利丢弃（LBD）模块，其中每个神经元的丢弃概率均为可微分参数，并与网络权重联合优化。
使用增强-REINFORCE-合并（ARM）梯度估计器，计算通过二值丢弃掩码的无偏、低方差梯度，从而实现对离散变量的反向传播。
将 LBD 建模为变分贝叶斯近似，无需用连续松弛替代伯努利分布，即可在深度网络中实现灵活的后验推断。
将 LBD 集成到变分自编码器（VAEs）中，构建半隐式变分自编码器（SIVAE），其中丢弃率被学习以提升后验灵活性与表征学习能力。
使用随机优化方法（如 Adam）结合 ARM 估计器，联合优化网络权重与丢弃参数，训练完整模型。
将该方法应用于监督任务（如图像分类、语义分割）与无监督协同过滤任务，验证其在不同领域的泛化能力。

实验结果

研究问题

RQ1是否可以在不依赖连续松弛的前提下，有效将丢弃率作为可微分参数在深度神经网络中进行学习？
RQ2与固定或人工调参的丢弃相比，学习逐神经元的丢弃率是否能提升模型的准确率与不确定性量化能力？
RQ3LBD 是否能有效集成到变分自编码器中，以构建更灵活、更强大的后验近似框架？
RQ4在性能与训练稳定性方面，LBD 与其它可学习丢弃方法（如 Concrete 或高斯丢弃）相比表现如何？
RQ5在 SIVAE 中使用 LBD 是否能实现在隐式反馈协同过滤任务中的最先进性能？

主要发现

与标准丢弃及其他可学习丢弃方法相比，LBD 显著提升了图像分类与语义分割任务中的预测准确率与不确定性估计性能。
与 VAE 结合时，LBD 可构建半隐式 VAE（SIVAE），在使用隐式反馈的协同过滤基准测试中达到最先进性能。
在 ML-20M、Netflix 与 MSD 数据集上，SIVAE + LBD 超过所有基线模型，包括 VAE、DAE、CDAE、WMF、SLIM 及采用 Concrete 或高斯丢弃的其他 SIVAE 变体。
LBD 带来的性能提升显著：SIVAE + LBD 在所有数据集上均实现了最高的 Recall@20 与 NDCG@20，相比非可学习基线模型性能提升最高达 10%。
从 VAE 中移除丢弃机制会导致性能显著下降，证实丢弃对 VAE 性能至关重要，而 LBD 通过学习最优丢弃率进一步增强了这一效果。
LBD 搭配 ARM 的性能优于 Concrete 或高斯丢弃变体，后者即使在联合学习丢弃率时仍受梯度偏差与次优优化的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。