Skip to main content
QUICK REVIEW

[論文レビュー] Sparse Networks from Scratch: Faster Training without Losing Performance

Tim Dettmers, Luke Zettlemoyer|arXiv (Cornell University)|Jul 10, 2019
Advanced Neural Network Applications参考文献 38被引用数 191
ひとこと要約

この論文はランダム初期化から完全に疎なネットワークを訓練するために疎なモーメントを導入し、CIFAR-10で最大5.61倍の訓練速度向上を達成し、ImageNetで競争力のある結果を示すdenseな性能を達成します。

ABSTRACT

We demonstrate the possibility of what we call sparse learning: accelerated training of deep neural networks that maintain sparse weights throughout training while achieving dense performance levels. We accomplish this by developing sparse momentum, an algorithm which uses exponentially smoothed gradients (momentum) to identify layers and weights which reduce the error efficiently. Sparse momentum redistributes pruned weights across layers according to the mean momentum magnitude of each layer. Within a layer, sparse momentum grows weights according to the momentum magnitude of zero-valued weights. We demonstrate state-of-the-art sparse performance on MNIST, CIFAR-10, and ImageNet, decreasing the mean error by a relative 8%, 15%, and 6% compared to other sparse algorithms. Furthermore, we show that sparse momentum reliably reproduces dense performance levels while providing up to 5.61x faster training. In our analysis, ablations show that the benefits of momentum redistribution and growth increase with the depth and size of the network. Additionally, we find that sparse momentum is insensitive to the choice of its hyperparameters suggesting that sparse momentum is robust and easy to use.

研究の動機と目的

  • 疎な学習を、精度を犠牲にせず訓練を加速する方法として動機づける。
  • 実用的なアルゴリズム(疎なモーメント)を開発・検証し、訓練期間を通じて疎性を維持する。
  • MNIST、CIFAR-10、ImageNetで最先端の疎性能を示す。
  • 速度upを定量化し、ハイパーパラメータとネットワーク深さに対するロバスト性を分析する。

提案手法

  • 指数的に平滑化された勾配(モーメンタム)を用いて層と重みの効率を測定する。
  • 各エポック後に最小値の大きさを持つ重みの一部を剪定する。
  • 各層の平均モーメンタムの大きさに比例して剪定された重みを層間で再分配する。
  • 欠落した接続における最高のモーメンタム大きさを持つ新しい重みを成長させる。
  • データセット間で圧縮法や他の疎トレーニング法と比較する。
  • denseなベースラインと比較してdense性能の保持と計算速度upを評価する。

実験結果

リサーチクエスチョン

  • RQ1ランダム初期化から訓練した疎ネットワークは再訓練なしでdenseな性能を達成できるか?
  • RQ2モーメンタムに基づく再分配と成長は、ネットワークの深さとサイズが大きくなるにつれて学習効率と精度を改善するか?
  • RQ3MNIST、CIFAR-10、ImageNet全体でdenseな性能を matchするための速度upと重み要件はどれくらいか?
  • RQ4剪定率とモーメンタムハイパーパラメータに対して疎モーメンタムはどれくらい頑健か?

主な発見

モデルDense Error (%)SNIPMomentumWeights (%)
AlexNet-s12.95 ± 0.05614.9914.27 ± 0.12310
AlexNet-b12.85 ± 0.06814.5013.56 ± 0.09410
VGG16-C6.49 ± 0.0387.277.00 ± 0.0545
VGG16-D6.59 ± 0.0507.096.69 ± 0.0495
VGG16-like6.50 ± 0.0548.007.00 ± 0.0773
WRN-16-84.57 ± 0.0226.635.62 ± 0.0565
WRN-16-104.45 ± 0.0406.435.24 ± 0.0525
WRN-22-84.26 ± 0.0325.854.93 ± 0.0565
  • 疎モーメンタムは、MNIST、CIFAR-10、ImageNetでdense相当の性能を、数%の重み(例:複数のモデルで5–10%)で達成する。
  • CIFAR-10では、疎な畳み込みに対して2.74x–5.61xの速度upを実現(WRNで最大5.61xまで)。
  • ImageNetでは、疎モーメンタムは複数の疎ベースラインよりもTop-1精度が高く、10–20%の重みで競争力のある結果を達成。
  • ネットワークが深くなるにつれてモーメンタム再分配と成長がより重要になる(例:ImageNetのResNet-50)。
  • 手法は剪定率(0.2–0.5)とモーメンタム値(0.7–0.9)に対して頑健で、ハイパーパラメータ調整は最小限で済む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。