[論文レビュー] Global Sparse Momentum SGD for Pruning Very Deep Neural Networks
GSM は、固定数のパラメータを積極的に更新するグローバルな選択を行い、他のパラメータをモーメンタムベースのウェイト減衰で 0 に近づけることにより、リトレーニングなしで損失なしのプルーニングと自動的な層ごとのスパース性発見を実現する、エンドツーエンドの DNN プルーニングを実現します。
Deep Neural Network (DNN) is powerful but computationally expensive and memory intensive, thus impeding its practical usage on resource-constrained front-end devices. DNN pruning is an approach for deep model compression, which aims at eliminating some parameters with tolerable performance degradation. In this paper, we propose a novel momentum-SGD-based optimization method to reduce the network complexity by on-the-fly pruning. Concretely, given a global compression ratio, we categorize all the parameters into two parts at each training iteration which are updated using different rules. In this way, we gradually zero out the redundant parameters, as we update them using only the ordinary weight decay but no gradients derived from the objective function. As a departure from prior methods that require heavy human works to tune the layer-wise sparsity ratios, prune by solving complicated non-differentiable problems or finetune the model after pruning, our method is characterized by 1) global compression that automatically finds the appropriate per-layer sparsity ratios; 2) end-to-end training; 3) no need for a time-consuming re-training process after pruning; and 4) superior capability to find better winning tickets which have won the initialization lottery.
研究の動機と目的
- リソース制約のあるデバイス上で大きな精度低下なしにモデル圧縮を促進する。
- グローバル圧縮比を直接制御するエンドツーエンドのプルーニング手法を開発する。
- 層ごとのハイパーパラメータ調整やプルーニング後の再学習を不要にする。
- トレーニング中の自動的な層ごとのスパース比の発見を可能にする。
- GSM が強力な勝者チケットを発見し、深いネットワークで損失なしのプルーニングを実現できることを示す。)
- method=[
提案手法
- グローバル圧縮比 C と Q = |Θ|/C を用いて SGD アップデートを活性化と受動的な部分に分割する。
- 各反復での一階テイラー展開に基づくパラメータ重要度指標 T(x,y,w) = |(∂L/∂w) w| を計算する。
- 活性化選択を適用して上位の Q 個のパラメータを活性化(勾配を用いて)し、残りをウェイト減衰のみで受動的に更新する。
- マスク B^(k) を用いたモーメンタムSGD を使い、受動的更新とプルーニングされた接続の時折の再活性化を可能にする。
- 暗黙的な再活性化と、多くのパラメータを明示的な微調整なしに連続的にゼロへ縮小させる。
- トレーニング後に上位Q の大きさのパラメータを保持してグローバルにプルーニングする。
- GSM が見つけたチケットを大きさに基づくチケットと比較して改善された勝者チケットを示す。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンド学習内でグローバル圧縮比を直接制御して、精度を損なうことなく高いスパース性を達成できるか?
- RQ2モーメンタムベースの二部更新がプルーニング速度、精度、および層ごとのスパース性分布にどのように影響するか?
- RQ3GSM は暗黙的な接続再活性化を可能にし、プルーニング後の高コストな再学習を回避できるか?
- RQ4GSM が見つけた勝者チケットは大きさに基づくプルーニングで得られるものより効果的か?
- RQ5GSM は非常に深いネットワーク(例: ResNet-50、DenseNet-40)と大規模データセット(ImageNet)を効果的にプルーニングできるか?
主な発見
- GSM は高い圧縮を実現する(LeNet-5 で最大125x、CIFAR-10/ResNet-56/DenseNet-40 で 8–10x など)精度の損失はほとんどないか、全くない。
- GSM は層ごとのスパース性を自動的に発見し、手動のハイパーパラメータ調整なしで層の感度に整合するプルーニングを実現する。
- モーメンタムは冗長なパラメータのゼロ化を加速し、スパース性への収束を速める。
- トレーニング中の再活性化は早期のプルーニングの誤りから回復を助け、精度を維持する。
- GSM はいくつかの実験(例: LeNet-5、LeNet-300)で大きさベースのプルーニングより強力な勝者チケットを特定する。
- GSM は同様の条件下で ResNet-50 のプルーニングに対して従来法(L-OBS)よりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。