[論文レビュー] Rigging the Lottery: Making All Tickets Winners
RigL は、訓練中にトポロジーを動的に更新することにより、定数パラメータと FLOP 予算を守りつつ、重要度ベースのドロップと勾配誘導の成長を用いて、以前の_dense-to-sparse_法よりも計算量を抑えつつ高精度を達成する。
Many applications require sparse neural networks due to space or inference time restrictions. There is a large body of work on training dense networks to yield sparse networks for inference, but this limits the size of the largest trainable sparse model to that of the largest trainable dense model. In this paper we introduce a method to train sparse neural networks with a fixed parameter count and a fixed computational cost throughout training, without sacrificing accuracy relative to existing dense-to-sparse training methods. Our method updates the topology of the sparse network during training by using parameter magnitudes and infrequent gradient calculations. We show that this approach requires fewer floating-point operations (FLOPs) to achieve a given level of accuracy compared to prior techniques. We demonstrate state-of-the-art sparse training results on a variety of networks and datasets, including ResNet-50, MobileNets on Imagenet-2012, and RNNs on WikiText-103. Finally, we provide some insights into why allowing the topology to change during the optimization can overcome local minima encountered when the topology remains static. Code used in our work can be found in github.com/google-research/rigl.
研究の動機と目的
- 厳しいリソース制約の下で展開するための効率的なスパースニューラルネットワークを動機づける。
- 精度を向上させつつ、固定されたパラメータ数と FLOP予算を維持する訓練アルゴリズムを開発する。
- 訓練中に進化するトポロジーが局所極小を脱出し最適化を改善する方法を調査する。
提案手法
- 固定されたスパース性分布を持つランダムなスパースネットワークから開始する。
- 一定間隔で最小振幅の接続をドロップし、高勾配情報を持つ新たな接続を成長させる。
- 成長の決定は、非活性な接続の中でトップk勾配に基づいて損失の増加を最小化する。
- ネットワーク密度に比例して総 FLOPs を固定するスケジュールを使用し、スパース性分布(Uniform、ERK、ERK-Kernel)を介して選択可能な FLOPs を許可する。
- Vision(ResNet-50、MobileNets)および Language(WikiText-103)における従来の疎訓練手法と密→疎のベースラインと RigL を比較する。
実験結果
リサーチクエスチョン
- RQ1固定パラメータ予算でゼロからスパースネットワークを訓練し、dense-to-sparse 法を上回ることができるか?
- RQ2訓練中にトポロジーを変更することは、静的なスパースやランダム成長と比べて最適化と最終的な精度を改善するか?
- RQ3アーキテクチャとタスクを問わず、与えられた FLOP 予算で精度を最大化するスパース分布と更新スケジュールは何か?
- RQ4計算効率と最終性能の観点で、RigL は magnitude-pruning ベースの手法とどう比較されるか?
主な発見
- RigL は ImageNet-2012 の ResNet-50 および MobileNets において、類似またはより低い訓練 FLOPs で従来の dense-to-sparse 法より高い精度を達成する。
- ERK 稀疎性では、RigL は 96.5% 稀疎度で ResNet-50 の Top-1 72.75% を達成し、従来の拡張勾配剪定を上回る。
- RigL は Static、SET、SNFS、SNIP 及びいくつかの剪定ベースラインを、複数の稀疎度とデータセットで上回り、しばしばはるかに少ない FLOPs で済む。
- 勾配に基づく成長を伴う動的接続性は、静的スパース訓練が直面する局所極小を回避するのに役立ち、損失表現と最終精度を改善する。
- RigL は同程度のパラメータ予算で、はるかに広いスパースモデル(Big-Sparse)の訓練を可能にし、密ベースラインに対して大幅な性能向上をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。