QUICK REVIEW

[論文レビュー] Structured Bayesian Pruning via Log-Normal Multiplicative Noise

Kirill Neklyudov, Dmitry Molchanov|arXiv (Cornell University)|May 20, 2017

Bayesian Methods and Mixture Models被引用数 68

ひとこと要約

Structured Bayesian Pruning (SBP)を導入する、ドロップアウト風の Bayesian 層で、層の出力に対して log-normal の乗数ノイズを適用し、SNR に基づく剪定を行うことで構造的なスパース性を誘導し、CNNとFCネットの加速を実現しつつ精度低下を最小限に抑える。

ABSTRACT

Dropout-based regularization methods can be regarded as injecting random noise with pre-defined magnitude to different parts of the neural network during training. It was recently shown that Bayesian dropout procedure not only improves generalization but also leads to extremely sparse neural architectures by automatically setting the individual noise magnitude per weight. However, this sparsity can hardly be used for acceleration since it is unstructured. In the paper, we propose a new Bayesian model that takes into account the computational structure of neural networks and provides structured sparsity, e.g. removes neurons and/or convolutional channels in CNNs. To do this we inject noise to the neurons outputs while keeping the weights unregularized. We establish the probabilistic model with a proper truncated log-uniform prior over the noise and truncated log-normal variational approximation that ensures that the KL-term in the evidence lower bound is computed in closed-form. The model leads to structured sparsity by removing elements with a low SNR from the computation graph and provides significant acceleration on a number of deep neural architectures. The model is easy to implement as it can be formulated as a separate dropout-like layer.

研究の動機と目的

ニューラルネットワークに構造的スパース性を生み出すベイズ的正則化フレームワークを開発する。
推論を加速させるために、全体のニューロンや畳み込みチャンネルを削除可能にする。
乗算ノイズに適切な事前分布を持つ、扱いやすい変分推論アプローチを提供する。
MNISTと CIFAR-10でLeNetおよびVGG風アーキテクチャで実用的な加速を示す。

提案手法

ニューロン出力にノイズ変数thetaを掛けるドロップアウト風SBP層を導入する。
thetaにスパース性を誘導する対数一様事前分布を置き、事後分布を切断した対数正規分布で近似する。
適切な確率モデルを保証するために切断を用いて、q(theta|mu, sigma)とp(theta)間の閉形式のKL発散を導出する。
再parameterizationを用いた確率的変分推論でmuとsigmaおよびネットワーク重みを訓練する。
ベイズ的アンサンブルなしで単一の順伝播を行うため、テスト時の期待値E[theta]を計算する。
thetaの信号対雑音比（SNR）に基づく閾値処理で低SNRのグループ（ニューロン/フィルタ）を削除して剪定する。
thetaをグループ間で共有して、CNNのチャンネルなど多次元テンソル上の構造的スパース性を誘導するようSBPを拡張する。

実験結果

リサーチクエスチョン

RQ1ベイズドロ dropout をどのように適応させてニューラルネットワークに構造的スパース性パターンを生成できるか？
RQ2不適切な対数一様事前分布を用いた場合に扱いやすい変分目的を導出できるか、切断が訓練にどのような影響を及ぼすか？
RQ3標準的なアーキテクチャとデータセットで、全ニューロンやチャンネルを削除することによって実用的な加速をSBPは達成するのか、最小限の精度低下で？
RQ4平均を固定するのと比較して、乗算ノイズの平均と分散の両方を訓練することは、スパース性と性能にどのような影響を与えるか？

主な発見

SBPは高いグループスパース性を達成し、CNNと全結合ネットの加速を、精度の劣化をほとんど伴わずに実現する。
対数正規ノイズのmuとsigmaの両方を訓練すると、平均を固定する場合より厳密な変分境界が得られ、スパース性が高まる。
低SNRのtheta成分に基づく剪定は、全ニューロン/フィルタを効果的に削除し、しばしば精度損失なし。
LeNetおよびMNISTとCIFAR-10上のVGG風ネットワークへのSBP適用は、CPU、GPU、FLOPs全体で実用的な速度改善を示し、精度も競争力がある。
切断された対数正規–対数一様の事前–事後対は、明確で扱いやすいELBOを提供し、不適切な事前分布による問題を避ける。
SBP層は最小のソフトウェア変更で軽量なドロップアウト風モジュールとして挿入できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。