[論文レビュー] Dynamic Network Surgery for Efficient DNNs
トレーニング中に接続を剪定しスプライスするダイナミックネットワークサージェリを導入し、精度を損なうことなくDNNを効率的に圧縮し、従来の剪定手法を上回る。
Deep learning has become a ubiquitous technology to improve machine intelligence. However, most of the existing deep models are structurally very complex, making them difficult to be deployed on the mobile platforms with limited computational power. In this paper, we propose a novel network compression method called dynamic network surgery, which can remarkably reduce the network complexity by making on-the-fly connection pruning. Unlike the previous methods which accomplish this task in a greedy way, we properly incorporate connection splicing into the whole process to avoid incorrect pruning and make it as a continual network maintenance. The effectiveness of our method is proved with experiments. Without any accuracy loss, our method can efficiently compress the number of parameters in LeNet-5 and AlexNet by a factor of $\bm{108} imes$ and $\bm{17.7} imes$ respectively, proving that it outperforms the recent pruning method by considerable margins. Code and some models are available at https://github.com/yiwenguo/Dynamic-Network-Surgery.
研究の動機と目的
- モバイル/デプロイ可能な用途のために深層ニューラルネットワークを圧縮する必要性を動機づける。
- ネットワーク構造を継続的に維持するためのダイナミック剪定とスプライシングの枠組みを提案する。
- 精度を維持または向上させつつモデルサイズを大幅に削減する。
- LeNet系とAlexNetで性能を損なうことなく顕著な圧縮効果を示す。
提案手法
- 活性接続を示す重み行列WkとバイナリマスクTkでネットワークを表現する。
- Wk ⊙ Tk上のLを用いてWkとTkの交互更新を SGD で解く拘束付き剪定問題を解く。
- 大きさ閾値(a_k, b_k)に基づいて接続を剪定/保持/スプライスするかを決定する識別関数hk(·)を用いる。
- 重要性が再度高まったときに以前に剪定された接続を再活性化するスプライシングを組み込む。
- Wkの更新規則はWk ← Wk − β ∂L(Wk ⊙ Tk)/∂Wkとし、マスクされた重みを介した部分的なバックプロパゲーションを許す。
- 収束を安定化させるため、確率的更新確率σ(iter)で剪定/スプライシングの頻度を制御する。
- 畳み込み層と全結合層それぞれで剪定とスプライシングを行い、勾配消失と学習の非効率を緩和する。
実験結果
リサーチクエスチョン
- RQ1その場でのスプライシングを伴うダイナミック剪定は、精度の損失なしに従来の剪定法より高い圧縮を達成できるか。
- RQ2提案手法は標準的なネットワーク(LeNet-5、LeNet-300-100、AlexNet)において、Hanらの剪定と比べてどのように機能するか。
- RQ3剪定とスプライシングを導くパラメータ重要度を決定する効果的な基準は何か。
主な発見
| Model | Top-1 error | Parameters | Iterations | Compression |
|---|---|---|---|---|
| LeNet-5 reference | 0.91% | 431K | 10K | |
| LeNet-5 pruned | 0.91% | 4.0K | 16K | 108× |
| LeNet-300-100 reference | 2.28% | 267K | 10K | |
| LeNet-300-100 pruned | 1.99% | 4.8K | 25K | 56× |
| AlexNet reference | 43.42% | 61M | 450K | |
| AlexNet pruned | 43.09% | 3.45M | 700K | 17.7× |
- ダイナミックネットワークサージェリは標準モデルで精度損失なしに顕著な圧縮を達成(例:LeNet-5を108×、AlexNetを17.7×削減)。
- 積極的な剪定にも関わらず、精度を維持またはわずかに改善することが多い。
- 層ごとの比較で、AlexNetの各層でHanらの剪定を一貫して上回る。
- 他の剪定法に比べてはるかに少ない学習反復回数で済む(AlexNetでは例: 700K 対 960K+)。
- 剪定とスプライシングを通じてマスクを動的に更新しつつ、パラメータのごく一部を保持することで圧縮を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。