QUICK REVIEW

[論文レビュー] Learning to Prune Deep Neural Networks via Layer-wise Optimal Brain Surgeon

Xin Dong, Shangyu Chen|arXiv (Cornell University)|May 22, 2017

Advanced Neural Network Applications被引用数 284

ひとこと要約

Layer-wise Optimal Brain Surgeon (L-OBS) を導入する、二次導関数を用いて各層を切り詰め、最終誤差を上限内に抑えつつ軽度の再訓練のみを行う層ごとの剪定手法。複数のアーキテクチャに渡って精度を維持しつつ高い圧縮を達成する。

ABSTRACT

How to develop slim and accurate deep neural networks has become crucial for real- world applications, especially for those employed in embedded systems. Though previous work along this research line has shown some promising results, most existing methods either fail to significantly compress a well-trained deep network or require a heavy retraining process for the pruned deep network to re-boost its prediction performance. In this paper, we propose a new layer-wise pruning method for deep neural networks. In our proposed method, parameters of each individual layer are pruned independently based on second order derivatives of a layer-wise error function with respect to the corresponding parameters. We prove that the final prediction performance drop after pruning is bounded by a linear combination of the reconstructed errors caused at each layer. Therefore, there is a guarantee that one only needs to perform a light retraining process on the pruned network to resume its original prediction performance. We conduct extensive experiments on benchmark datasets to demonstrate the effectiveness of our pruning method compared with several state-of-the-art baseline methods.

研究の動機と目的

埋め込みシーンや現実世界の展開に適した、スリムで高精度なネットワークの必要性を動機づける。
二次情報を用いて層ごとに剪定可能なパラメータを識別する、層単位の剪定フレームワークを提案する。
全体のネットワーク性能低下が、再構成された層ごとの誤差によって有界であることを保証する。
ヘッセ行列の計算を各層に集中させ、剪定後の軽い再訓練フェーズを可能にすることで計算負荷を削減する。

提案手法

各層の剪定を、事前活性化出力 Z^l と層ごとの誤差 E^l のテイラー展開を用いて層ごとの誤差としてモデル化する。
各層に対して逆ヘッセ行列 H_l^{-1} を計算し、感度 L_q = (Θ_{l[q]})^2 / (2 [H_l^{-1}]_{qq}) を得る。
誘導される層ごとの誤差が閾値 ε を下回るように、最も感度スコアが小さいパラメータを剪定する。
最終ネットワーク誤差の境界を提供する： ε̃^L ≤ 各層の後続層ノルムの積の和に √δE^l を掛けたもの、全体的な劣化を制御。
ヘッセ基盤の剪定を畳み込み層に拡張するためにフィルタをベクトル化してブロック対角のヘッセ行列構造を導出し、反転を単純化する。
剪定と軽い再訓練を交互に行う反復版を提供し、より高い圧縮比を達成する。

実験結果

リサーチクエスチョン

RQ1層ごとの二次情報を用いた剪定は、全ネットワークの再訓練を行わずに高い圧縮と精度維持を実現できるのか？
RQ2層ごとの剪定誤差をどのように制御して全体の性能低下を境界付けできるか？
RQ3深層ネットワークで層ごとのヘッセ行列を計算・逆行列化する効率的な機構は何か、スケーラブルな剪定を可能にする？
RQ4このアプローチは畳み込み層や全結合ネットワークを超える現代的なアーキテクチャにも一般化できるか？

主な発見

L-OBS は、再訓練前に複数のモデル（例：LeNet 系、CIFAR-Net、AlexNet、VGG-16、ResNet-50）で、最小限の精度低下で大幅な圧縮を達成する。
LeNet-300-100 では、L-OBS（単段階）は7%の圧縮と3.10% の Re-Error を達成し、反復剪定はより高い圧縮で1.5–1.8% の Re-Error を達成。
LeNet-5 と CIFAR-Net では、剪定後の誤差を一桁台の百分率に削減し、競合法より再訓練回数がはるかに少ない。
AlexNet と VGG-16 では、L-OBS は顕著な圧縮（AlexNet 11%、VGG-16 7.5%）を達成し、精度の重大な低下はなく、時には最小限の再訓練で済む。
L-OBS は ResNet-50 の剪定を可能にし、剪定比率が 45% 以上で top-5 精度を 85% 以上に維持。
本手法は Net-Trim、DNS、LWC などのベースラインと比較して再訓練負荷を低減し、軽い再訓練でより高い圧縮を達成するための反復剪定をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。