[論文レビュー] Pruning Neural Networks at Initialization: Why are We Missing the Mark?
この論文はSNIP、GraSP、SynFlow、そして初期化時のマグニチュード剪定を評価し、乱択剪定を上回るが訓練後には一般にマグニチュード剪定に及ばないことを示しています。剪定の決定は個々のウェイトよりもレイヤーごとの剪定比率が大きく捉えられます。
Recent work has explored the possibility of pruning neural networks at initialization. We assess proposals for doing so: SNIP (Lee et al., 2019), GraSP (Wang et al., 2020), SynFlow (Tanaka et al., 2020), and magnitude pruning. Although these methods surpass the trivial baseline of random pruning, they remain below the accuracy of magnitude pruning after training, and we endeavor to understand why. We show that, unlike pruning after training, randomly shuffling the weights these methods prune within each layer or sampling new initial values preserves or improves accuracy. As such, the per-weight pruning decisions made by these methods can be replaced by a per-layer choice of the fraction of weights to prune. This property suggests broader challenges with the underlying pruning heuristics, the desire to prune at initialization, or both.
研究の動機と目的
- SNIP、GraSP、SynFlowをはじめとする初期化時の剪定法が、マグニチュード剪定およびランダムベースラインと比較してどれだけ良く機能するかを評価する。
- 初期化ベースの剪定で、剪定の決定が重みごとかレイヤーごとかを理解する。
- これらの方法が実際に用いる情報を明らかにするアブレーションを特定する。
- 一般的なアーキテクチャとスパーシティにおいて、初期化時の剪定が訓練後の剪定に匹敵できるかを判断する。
提案手法
- 重みごとのスコアと除去手順を用いて、スパース性sに剪定を定義する。
- SNIP、GraSP、SynFlow、マグニチュード剪定、およびベースライン間で、初期化時のワンショット剪定を比較する。
- 感度を検証するために、重みのシャッフル、再初期化、反転といったアブレーションを実施する。
- CIFAR-10、TinyImageNet、ImageNet といったCNN/ResNetで、訓練後のマグニチュード剪定が全精度に一致する等の整合スパーシティで評価する。
- 訓練後の剪定(学習後の剪定)と再訓練を含め、初期化後の剪定の分析を拡張する。
実験結果
リサーチクエスチョン
- RQ1標準的なネットワークにおいて、初期化時のSNIP、 GraSP、 SynFlow、マグニチュード剪定は、ランダム剪定および訓練後のマグニチュード剪定とどう比較されるか。
- RQ2初期化時の剪定の決定は、個々のウェイトの選択に敏感か、それとも主にレイヤーごとのスパース比に敏感か。
- RQ3アブレーション(シャッフル、再初期化、反転)は、初期化時の剪定法と訓練後の剪定の基本的な違いを明らかにするか。
- RQ4トレーニング後半での剪定や異なるシグナルを用いた場合、初期化時の剪定は訓練後の剪定と同等の精度を達成できるか。
主な発見
- すべての初期化時剪定法は、整合スパーシティでランダム剪定を上回るが、どのネットワークにも普遍的に最良という方法はない。
- 訓練後のマグニチュード剪定は、初期化時剪定より高い精度と、より疎な一致スパーシティを達成することが多い。
- SNIP、GraSP、 SynFlow、および初期化時のマグニチュード剪定における剪定決定は、レイヤーごとの剪定比率でほぼ捉えられる。レイヤー内のシャッフルは性能を保つ。
- 未剪定のウェイトを再初期化またはシャッフルしても、初期化時剪定の性能を傷つけないが、訓練後の剪定法はそうではない。
- SynFlowがニューロン崩壊挙動を示すことがある(特定の極端なスパーシティで、全ニューロンをより攻撃的に剪定)。
- 初期化後に剪定すると、これらの手法の精度は訓練後のマグニチュード剪定ほど急速には向上せず、初期化時剪定の内在的な限界を示唆する。学習後に剪定する(LTRベースライン)は、初期手法より優れている可能性がある。
- これらの手法を訓練後に剪定すると精度は向上するが、最も極端なスパーシティではLTRに及ばず、初期化時剪定に広範な課題があることを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。