Skip to main content
QUICK REVIEW

[論文レビュー] Bayesian Compression for Deep Learning

Christos Louizos, Karen Ullrich|arXiv (Cornell University)|May 24, 2017
Gaussian Processes and Bayesian Inference参考文献 61被引用数 349
ひとこと要約

この論文は、グループスパース性 priors でニューロンを剪定し、事後不確実性を用いてレイヤーごとの重みの精度を決定することで、ニューラルネットワークを圧縮するベイズフレームワークを提案し、精度を維持しつつ最先端の圧縮を実現する。

ABSTRACT

Compression and computational efficiency in deep learning have become a problem of great significance. In this work, we argue that the most principled and effective way to attack this problem is by adopting a Bayesian point of view, where through sparsity inducing priors we prune large parts of the network. We introduce two novelties in this paper: 1) we use hierarchical priors to prune nodes instead of individual weights, and 2) we use the posterior uncertainties to determine the optimal fixed point precision to encode the weights. Both factors significantly contribute to achieving the state of the art in terms of compression rates, while still staying competitive with methods designed to optimize for speed or energy efficiency.

研究の動機と目的

  • ベイズ的な視点から深層学習における圧縮と効率性の動機付け。
  • ニューロン群を剪定するためのスパース性を促す事前分布を用いた変分推論フレームワークの開発。
  • 事後不確実性からレイヤーごとの最適な固定小数点ビット精度を推定する方法を導出。
  • グループスパース性と適応精度が競争力のある圧縮とスピードアップにつながることを示す。
  • ベイズ法は予測精度を損なうことなく高い圧縮を達成できることを示す。

提案手法

  • ニューノードへ入力する重みのグループに対してスパース性を促す事前分布を用いた変分ベイズフレームワークを採用し、ニューロン全体を剪定。
  • 正規分布のスケール混合(対数一様分布を含む、半カーチョー/ホースシュー事前分布を含む)を用いてスパース性を誘導し、グループ剪定を可能にする。
  • 非中心再パラメータ化を用いて、計算可能なKL項を持つ効率的なELBOを導出し、ドロップアウト様の仕組みによってグループスパース性を実現。
  • ビットバックの議論と事後不確実性を活用して、推論時にレイヤーごとの固定小数点重み精度を決定。
  • 局所再パラメータ化を適用して勾配分散を低減し、ニューラルネットワークの効率的な訓練を可能にする。
  • マスクされた事後平均と分散を用いてテスト時の重み推定を計算し、ビット精度の必要性を定量化する。

実験結果

リサーチクエスチョン

  • RQ1グループスパース性 priors は現代のアーキテクチャで全ニューロンを効果的に剪定できるか。
  • RQ2事後不確実性は効率的な符号化のためのレイヤー/重みのビット精度をどう導くか。
  • RQ3スパース性を促す事前分布は、精度を犠牲にせず競争力のある圧縮率を可能にするか。
  • RQ4一般的なネットワークにベイズ圧縮を実装するための実用的な訓練・推論戦略は何か。
  • RQ5異なる事前分布(対数一様 vs ホースシュー)がスパース性と圧縮にどのように影響するか。

主な発見

  • 提案されたベイズ圧縮法はグループスパース性を大きく誘導し、いくつかのベースラインを超えるネットワーク規模の削減を実現する。
  • 事後不確実性から決定されたレイヤーごとのビット精度は、精度の損失をほとんど伴わずに顕著なメモリ削減を達成する。
  • グループホースシューおよびグループ正則Jeffreys事前分布は、強力な圧縮と既存の剪定/量子化法と比較して競争力がある、あるいは優れた性能を示す。
  • LeNet系統やVGGのようなネットワークでは、レイヤーごとのビット精度の意味のある削減とともにパラメータ剪定が substantial に達成される。
  • このアプローチはCPU/GPUでのスピードアップとエネルギー効率を提供し、特に大規模ネットワーク(例:VGG)で顕著な効果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。