Skip to main content
QUICK REVIEW

[论文解读] Compressing Neural Networks using the Variational Information Bottleneck

Bin Dai, Chen Zhu|arXiv (Cornell University)|Feb 28, 2018
Model Reduction and Neural Networks参考文献 45被引用 71
一句话总结

本文提出 VIBNet,一种基于剪枝的压缩方法,源自变分信息瓶颈,用以在保持准确性的同时大幅裁剪神经元,在标准基准测试上实现最先进的压缩效果。

ABSTRACT

Neural networks can be compressed to reduce memory and computational requirements, or to increase accuracy by facilitating the use of a larger base architecture. In this paper we focus on pruning individual neurons, which can simultaneously trim model size, FLOPs, and run-time memory. To improve upon the performance of existing compression algorithms we utilize the information bottleneck principle instantiated via a tractable variational bound. Minimization of this information theoretic bound reduces the redundancy between adjacent layers by aggregating useful information into a subset of neurons that can be preserved. In contrast, the activations of disposable neurons are shut off via an attractive form of sparse regularization that emerges naturally from this framework, providing tangible advantages over traditional sparsity penalties without contributing additional tuning parameters to the energy landscape. We demonstrate state-of-the-art compression rates across an array of datasets and network architectures.

研究动机与目标

  • 通过信息论框架动机化神经网络压缩,目标是消除层间冗余。
  • 开发一个可行的变分界,鼓励使用稀疏、信息性神经元。
  • 证明一个稀疏的神经元子集能够聚集有用信息,而其他神经元在最小程度影响准确性的情况下被裁剪。
  • 提供经验比较,显示 VIBNet 相对于现有方法在压缩方面具有优越性。

提出的方法

  • 使用一个变分信息瓶颈界来形成分层压缩能量,该界面将 KL 散度项与数据保真项结合在一起。
  • 将 p(h_i|h_{i-1}) 建模为具有可学习 µ_i、σ_i 和 fi(h_{i-1}) 的高斯分布,引入随机激活。
  • 使用 q(h_i) 作为高斯分布 N(h_i; 0, diag[ξ_i]) 以引入稀疏性;当 ξ_i → 0 或相应的 α_{i,j} → 0 时进行剪枝。
  • 推导出闭式 KL 边界,得到一个可处理的损失,其中每一层只有一个压缩控制参数 γ_i。
  • 通过 α_{i,j} = µ_{i,j}^2 σ_{i,j}^{-2} 定义一个自适应的促稀疏正则化项,在信息传输不必要的地方促使为零。
  • 在随机前向传播和反向传播下进行训练,然后在训练后根据稀疏性指示器对神经元进行裁剪。

实验结果

研究问题

  • RQ1信息瓶颈启发的目标是否能够有效识别并裁剪跨层的冗余神经元?
  • RQ2与现有剪枝方法相比,提出的 VIBNet 框架是否在压缩方面取得更高的比率且预测准确率几乎不损失?
  • RQ3层级压缩控制 γ_i 如何影响不同架构和数据集上的稀疏性与性能?

主要发现

方法rW (%)rN (%)误差率 (%)
VD25.2858.951.8
BC-GNJ10.7632.851.8
BC-GHS10.5534.711.8
L026.0245.021.4
L0-sep10.0132.691.8
DN23.0557.941.8
VIBNet3.5916.981.6
  • VIBNet 在 MNIST LeNet-300-100 上的压缩水平显著高于竞争方法(rW 3.59%,rN 16.98%,误差 1.6%)。
  • 在 LeNet-5-Caffe 上,VIBNet 取得最低的 FLOPs 和运行时内存,同时保持有竞争力的准确度。
  • 对于 CIFAR-10/100 使用 VGG-16,VIBNet 在多种协议下显示出强大的压缩性能,通常优于基线。
  • 该方法通过将冗余信息聚合到一组稀疏神经元中来促进内在稀疏性,从而实现有效剪枝。
  • 所提出的目标仅需要每层一个可调参数(γ_i),相较于竞争的贝叶斯/先验方法简化了超参数调优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。