QUICK REVIEW

[論文レビュー] Progressive Weight Pruning of Deep Neural Networks using ADMM

Shaokai Ye, Tianyun Zhang|arXiv (Cornell University)|Oct 17, 2018

Advanced Neural Network Applications参考文献 27被引用数 38

ひとこと要約

本論文は、ADMMを用いて極めて高いスパarsityを達成しつつ、精度の損失を最小限に抑えるためのプログレッシブな重みプルーニングフレームワークを提案する。繰り返し中程度のプルーニング率を適用し、マスク付き再訓練を行うことで、収束の問題や精度の低下を克服し、ImageNetでは最大34倍、MNISTでは167倍のプルーニングを達成した。これは、圧縮率と収束速度の面で、先行研究を大きく上回っている。

ABSTRACT

Deep neural networks (DNNs) although achieving human-level performance in many domains, have very large model size that hinders their broader applications on edge computing devices. Extensive research work have been conducted on DNN model compression or pruning. However, most of the previous work took heuristic approaches. This work proposes a progressive weight pruning approach based on ADMM (Alternating Direction Method of Multipliers), a powerful technique to deal with non-convex optimization problems with potentially combinatorial constraints. Motivated by dynamic programming, the proposed method reaches extremely high pruning rate by using partial prunings with moderate pruning rates. Therefore, it resolves the accuracy degradation and long convergence time problems when pursuing extremely high pruning ratios. It achieves up to 34 times pruning rate for ImageNet dataset and 167 times pruning rate for MNIST dataset, significantly higher than those reached by the literature work. Under the same number of epochs, the proposed method also achieves faster convergence and higher compression rates. The codes and pruned DNN models are released in the link bit.ly/2zxdlss

研究の動機と目的

極めて高いプルーニング率を達成するが、精度の著しい低下を伴わないDNNにおける課題に対処すること。
超高スパarsityレベルでの直接的なADMMベースのプルーニングに伴う長時間の収束と精度の低下を克服すること。
安定的かつ効率的なモデル圧縮を可能にする、動的プログラミングの原則を活用したスケーラブルでプログレッシブなプルーニングフレームワークの開発。
エッジデバイスへの圧縮DNNの実用的導入を可能にするため、スパarsityを最大化しながらモデル性能を維持すること。
さらに高い圧縮を実現するため、統一されたADMMフレームワーク内で重みプルーニングと量子化を組み合わせる可能性を示すこと。

提案手法

本手法は、一度に強力なプルーニングを行うのではなく、中程度のプルーニング率を複数回適用するプログレッシブなプルーニング戦略を採用する。
重みプルーニングに伴う非凸最適化問題と組み合わせ制約を解くために、ADMM（交互方向乗数法）を用いる。
各プルーニングステップの後、精度回復のためのマスク付き再訓練を実行する。この際、プルーニングされた重みはゼロに固定され、残りの重みは微調整される。
動的プログラミングにインspiredされたアプローチであり、中間解を用いて以降のプルーニング段階をガイドすることで、収束性と安定性が向上する。
本フレームワークは非構造的および構造的スパarsityの両方をサポートでき、さらなる圧縮のための重み量子化の統合も可能である。
本手法はCaffeおよびTensorFlowの両方で実装されており、コードとプルーニング済みモデルが公開されている。

実験結果

リサーチクエスチョン

RQ1ADMMベースのプルーニングは、顕著な精度損失を伴わずにDNNで超高スパarsityを達成できるか？
RQ2収束速度と精度保持の観点から、プログレッシブプルーニングは、一度に直接ADMMベースのプルーニングと比べてどのように異なるか？
RQ3最適化駆動アプローチを用いた場合、AlexNet や LeNet-5 といった標準的なDNNの最大プルーニング率はどの程度達成可能か？
RQ4プログレッシブなADMMフレームワークは、重み量子化と効果的に組み合わせられ、さらにモデルサイズを削減できるか？
RQ5本手法は、畳み込み層のみで構成されたモデルを含む多様なDNNアーキテクチャにおいても高い性能を維持できるか？

主な発見

提案されたプログレッシブなADMMプルーニング手法は、ImageNetデータセットで最大34倍のプルーニング率を達成し、精度損失はほとんどない。
MNISTデータセットでは、記録的な167倍のプルーニング率に到達し、先行研究を大きく上回っている。
同じ訓練エポック数のもとで、本手法は反復的プルーニングおよび直接ADMMプルーニングの両方を上回り、より速く収束し、より高い圧縮率を達成した。
量子化と組み合わせた場合、LeNet-5では全モデルストレージを1,910倍に圧縮でき、全結合層は2ビット、畳み込み層は3ビットに量子化され、99.0％の精度を維持した。
インデックスのストレージオーバーヘッドを考慮しても、全体の圧縮率は623倍に留まり、既存の手法よりも顕著に高い水準を維持した。
本フレームワークは、主に畳み込み層で構成された多様なDNNアーキテクチャにおいても有効であり、ヒューリスティックおよび正則化ベースの手法を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。