[论文解读] Bayesian Compression for Deep Learning
该论文提出了一个用于压缩神经网络的贝叶斯框架,通过对神经元进行组稀疏先验的修剪,以及利用后验不确定性来确定每一层的权重量化精度,在保持准确性的同时实现了最先进的压缩。
Compression and computational efficiency in deep learning have become a problem of great significance. In this work, we argue that the most principled and effective way to attack this problem is by adopting a Bayesian point of view, where through sparsity inducing priors we prune large parts of the network. We introduce two novelties in this paper: 1) we use hierarchical priors to prune nodes instead of individual weights, and 2) we use the posterior uncertainties to determine the optimal fixed point precision to encode the weights. Both factors significantly contribute to achieving the state of the art in terms of compression rates, while still staying competitive with methods designed to optimize for speed or energy efficiency.
研究动机与目标
- 从贝叶斯角度动机化深度学习中的压缩与效率。
- 开发一个带有稀疏性诱导先验的变分推断框架,以剪除神经元组。
- 推导一种从后验不确定性中估计每层最优定点比特精度的方法。
- 证明组稀疏性和自适应精度能实现具竞争力的压缩和加速。
- 展示贝叶斯方法在不牺牲预测准确性的情况下实现高压缩。
提出的方法
- 采用带有对权重分组的稀疏性先验的变分贝叶斯框架,以修剪整个神经元的权重组。
- 使用正态分布的尺度混合(包括对数均匀和半柯西/ Horseshoe 先验)来诱导稀疏性并实现组修剪。
- 采用非中心化重参数化以推导一个高效的 ELBO,使 KL 项可处理,并通过类似 dropout 的机制实现组稀疏。
- 利用 bits-back 理论和后验不确定性在测试时确定每层的定点权重精度。
- 应用局部重参数化以降低梯度方差,并实现高效的神经网络训练。
- 通过屏蔽的后验均值和方差在测试时计算权重估计,以量化比特精度需求。
实验结果
研究问题
- RQ1在现代架构中,组稀疏先验是否能有效裁剪整个神经元?
- RQ2贝叶斯不确定性如何为高效编码中的每层/权重量化位数提供信息?
- RQ3稀疏性诱导先验是否能够在不牺牲准确性的前提下实现具有竞争力的压缩率?
- RQ4在常见网络上实现贝叶斯压缩的实际训练与推理策略有哪些?
- RQ5不同先验(对数均匀 vs 马蹄形)在促进稀疏性和压缩方面有何比较?
主要发现
- 提出的贝叶斯压缩方法引入显著的组稀疏性,缩减网络规模超过若干基线。
- 从后验不确定性确定的每层比特精度在保持极少量准确性损失的情况下实现显著的内存节省。
- 组马蹄形与组正常-Jeffreys先验在实现强压缩方面表现出色,并与现有剪枝/量化方法相比具有竞争力甚至更优。
- 对于如 LeNet 变体和 VGG 等网络,在每层实现显著的参数剪枝,并带来有意义的比特精度下降。
- 该方法在 CPU/GPU 上提供加速和能效提升,对于更大规模的网络(如 VGG)有显著收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。