Skip to main content
QUICK REVIEW

[论文解读] Variational Dropout Sparsifies Deep Neural Networks

Dmitry Molchanov, Arsenii Ashukha|arXiv (Cornell University)|Jan 19, 2017
Advanced Neural Network Applications参考文献 31被引用 348
一句话总结

本论文将 Variational Dropout 扩展为允许逐权重 dropout 率,引入 加法噪声重参数化 和 一种严格的 KL-散度近似,以实现强力稀疏化,并在 LeNet 和类似 VGG 的网络上展示最先进的稀疏性,且准确度损失微乎其微。

ABSTRACT

We explore a recently proposed Variational Dropout technique that provided an elegant Bayesian interpretation to Gaussian Dropout. We extend Variational Dropout to the case when dropout rates are unbounded, propose a way to reduce the variance of the gradient estimator and report first experimental results with individual dropout rates per weight. Interestingly, it leads to extremely sparse solutions both in fully-connected and convolutional layers. This effect is similar to automatic relevance determination effect in empirical Bayes but has a number of advantages. We reduce the number of parameters up to 280 times on LeNet architectures and up to 68 times on VGG-like networks with a negligible decrease of accuracy.

研究动机与目标

  • 通过贝叶斯正则化来驱动并利用稀疏性在深度神经网络中实现稀疏性。
  • 将 Variational Dropout 扩展到未边界的 dropout 率,以在 DNN 中实现 Automatic Relevance Determination (ARD)。
  • 开发低方差梯度估计量和一个紧致的 KL-散度近似,以训练稀疏后验分布。
  • 证明 Sparse Variational Dropout 在全连接层和卷积层都能实现极端稀疏性,同时对准确度的损失很小。

提出的方法

  • 用 q(W|θ,α) 表示权重的变分后验,其中 α 是逐权重的 dropout 率(p = α/(1+α))。
  • 使用加性噪声重参数化将乘性噪声替换为加性噪声,以降低梯度方差。
  • 应用局部重参数化技巧进一步降低梯度方差。
  • 提供对 KL 散度项在整个 α 域的紧致解析-like 近似,以便以较大 dropout 率进行训练。
  • 推导并在全连接层和卷积层中应用 Sparse Variational Dropout 的逐层方程(包括卷积层的公式化)。
  • 在随机变分推断 (SGVB) 下训练网络并使用 Adam 进行优化,配合稳定稀疏化的热身策略。

实验结果

研究问题

  • RQ1通过变分推断学习的逐权重 dropout 率是否能在不显著影响准确度的情况下产生稀疏的神经网络?
  • RQ2当 dropout 率不受界限时,紧致的 KL 散度近似是否能实现稳定训练?
  • RQ3加性噪声重参数化如何影响 Sparse Variational Dropout 的梯度方差和收敛性?
  • RQ4全连接和卷积结构(如 LeNet、VGG-like、CIFAR)在 Sparse Variational Dropout 下是否能实现高稀疏性同时保持性能?

主要发现

  • Sparse Variational Dropout 在全连接层和卷积层都产生了极其稀疏的模型。
  • 该方法在 LeNet 架构上达到了最先进的稀疏性,并可扩展到如 VGG 这样更大的网络,准确度损失微乎其微。
  • 逐权重 dropout 率实现了类似 ARD 的稀疏性,而避免了经验贝叶斯的风险。
  • 加性噪声重参数化和局部重参数化技巧显著降低了梯度方差并加速收敛。
  • 用 Sparse Variational Dropout 训练的网络对随机标签的拟合过拟合表现较差,表明具有更好的泛化行为。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。