QUICK REVIEW

[論文レビュー] The State of Sparsity in Deep Neural Networks

Trevor Gale, Erich Elsen|arXiv (Cornell University)|Feb 25, 2019

Machine Learning and Data Classification参考文献 31被引用数 439

ひとこと要約

この論文は Transformer（WMT 2014 En-De）と ResNet-50（ImageNet）に対して三つの疎化誘導手法を評価し、マグニチュード・プルーニングがしばしば複雑な手法に匹敵または上回ることを示し、マグニチュード・プルーニングによる ResNet-50 の新しい疎化精度ベンチマークを設定する。

ABSTRACT

We rigorously evaluate three state-of-the-art techniques for inducing sparsity in deep neural networks on two large-scale learning tasks: Transformer trained on WMT 2014 English-to-German, and ResNet-50 trained on ImageNet. Across thousands of experiments, we demonstrate that complex techniques (Molchanov et al., 2017; Louizos et al., 2017b) shown to yield high compression rates on smaller datasets perform inconsistently, and that simple magnitude pruning approaches achieve comparable or better results. Additionally, we replicate the experiments performed by (Frankle & Carbin, 2018) and (Liu et al., 2018) at scale and show that unstructured sparse architectures learned through pruning cannot be trained from scratch to the same test set performance as a model trained with joint sparsification and optimization. Together, these results highlight the need for large-scale benchmarks in the field of model compression. We open-source our code, top performing model checkpoints, and results of all hyperparameter configurations to establish rigorous baselines for future work on compression and sparsification.

研究の動機と目的

大規模モデルでの variational dropout、l0 正規化、マグニチュード・プルーニングの有効性を評価する。
Transformer と ResNet-50 の間で疎化精度のトレードオフを比較する。
pruning によって生まれる疎化がスケール時に scratch（ lottery tickets ）で訓練できるかを調査する。
ベースラインを確立するためにオープンソースのコード、チェックポイント、ハイパーパラメータ結果を提供する。

提案手法

Transformer (WMT 2014 En-De) と ResNet-50 (ImageNet) で三つの疎化技術（variational dropout、l0 正規化、マグニチュード・プルーニング）を評価する。
下限比較のためのランダム剪定ベースラインを含める。
非一様な疎化パターンを理解するために層ごとの疎化分布を分析する。
learned sparse architectures を用いた Scratch からの訓練で lottery ticket 実験を再現する。

実験結果

リサーチクエスチョン

RQ1複雑な疎化技術は大規模タスクでマグニチュード・プルーニングを上回るか？
RQ2層間の疎化分布が圧縮-精度のトレードオフにどう影響するか？
RQ3 pruning によって学習された疎構造をゼロから学習させ、 jointly trained sparse models に匹敵させることができるか？
RQ4疎化はトレーニング時間とリソース使用量にどのような影響を与えるか？
RQ5 Transformer と ResNet-50 の両方でスケール時に結果は一貫しているか？

主な発見

高い疎度で、マグニチュード・プルーニングはより複雑な疎化技術と同等かそれを上回る結果を達成する。
Transformer では l0 正規化は良好だが ResNet-50 では良くない。
Variational dropout は高い疎度を良い精度で維持できるが、メモリを多く必要とし、ある疎度レンジでは性能が低下する。
ResNet-50 でマグニチュード・プルーニングによる新たな最先端の疎化-精度のトレードオフを実現。
pruning によって学習された非構造的な疎構造は、スケール時に jointly trained sparse models に匹敵するよう Scratchから訓練することはできない。
オープンソースのコード、チェックポイント、ハイパーパラメータがベースラインとして提供される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。