[論文レビュー] The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training
本論文は、初期から訓練されたランダムに剪定されたサブネットワークが密なネットワークの性能に追いつくか超えることができ、 especially in large models, and can improve OoD detection, uncertainty estimation, and adversarial robustness.
Random pruning is arguably the most naive way to attain sparsity in neural networks, but has been deemed uncompetitive by either post-training pruning or sparse training. In this paper, we focus on sparse training and highlight a perhaps counter-intuitive finding, that random pruning at initialization can be quite powerful for the sparse training of modern neural networks. Without any delicate pruning criteria or carefully pursued sparsity structures, we empirically demonstrate that sparsely training a randomly pruned network from scratch can match the performance of its dense equivalent. There are two key factors that contribute to this revival: (i) the network sizes matter: as the original dense networks grow wider and deeper, the performance of training a randomly pruned sparse network will quickly grow to matching that of its dense equivalent, even at high sparsity ratios; (ii) appropriate layer-wise sparsity ratios can be pre-chosen for sparse training, which shows to be another important performance booster. Simple as it looks, a randomly pruned subnetwork of Wide ResNet-50 can be sparsely trained to outperforming a dense Wide ResNet-50, on ImageNet. We also observed such randomly pruned networks outperform dense counterparts in other favorable aspects, such as out-of-distribution detection, uncertainty estimation, and adversarial robustness. Overall, our results strongly suggest there is larger-than-expected room for sparse training at scale, and the benefits of sparsity might be more universal beyond carefully designed pruning. Our source code can be found at https://github.com/VITA-Group/Random_Pruning.
研究の動機と目的
- スパース領域における性能を維持しつつ、計算コストとモデルサイズを削減するという動機。
- アーキテクチャ、データセット、スパース性レベルを横断したランダム剪定の体系的評価。
- スクラッチからのスパース学習におけるネットワークサイズと事前定義された層別スパースパターンの役割の検討。
提案手法
- 6つのスキーム(Uniform、Uniform+、SNIP、GraSP、ERK、ERK+)を用いて層ごとのスパース比を事前定義する。
- マスクを訓練せずに、ターゲットのスパース度でサブネットワークを初期化するためにランダム剪定を適用する。
- CIFARとImageNetを対象に、SGDと標準の訓練レシピを用いてスクラッチからスパースサブネットワークを訓練する。
- 予測精度だけでなく、OoD検出、不確実性推定、対抗的ロバスト性も評価する。
- ランダム剪定と非ランダム剪定基準(SNIP、GraSP)を比較し、勾配の流れを分析する。
- 適切な場合にはERK+を用いて最後の層を高密度化して性能を維持する。)
実験結果
リサーチクエスチョン
- RQ1初期化から訓練されたランダム剪定サブネットワークは、さまざまなアーキテクチャとスパース度において、密に訓練された対になるモデルの性能に匹敵するか、あるいはそれを超えることができるか?
- RQ2ネットワークサイズと層別スパースパターンは、スパース訓練におけるランダム剪定の有効性にどう影響するか?
- RQ3ランダム剪定されたネットワークは、密モデルと比較してOoD検出、不確実性推定、対抗的ロバスト性の面で利点を提供するか?
- RQ4異なる事前定義スパーススキーム(ERK、SNIP、GraSP、Uniform、ERK+)は、実践的にはスパース訓練でどのように比較されるか?
- RQ5勾配フロー分析は、スパース訓練におけるSNIPとERKベースのスパース性の利点について何を示すことができるか?
主な発見
- ネットワークサイズは重要: 小型のネットワークはランダム剪定下で dense の性能に追いつくのが難しいが、より大きなネットワークは高いスパース度でもすぐに追随する。
- 適切な層ごとのスパース比は性能を向上させ、ERKベースのパターンはときにImageNetで密モデルに匹敵または上回る。
- ERKベースの剪定は、データ駆動の剪定信号がなくても、SNIPやGraSPなどの複雑な基準よりも優れる場面がある。
- CIFAR-10では、ランダム剪定されたネットワークは不確実性推定が強く、 OoD性能も競争力があり、より大きなモデルでロバスト性を改善する。
- ImageNetでは、ランダム剪定を適用した大規模モデルが30-50%のスパース性で密モデルと同等の精度に到達し、OoD、不確実性、対抗的ロバスト性の顕著な改善が見られる。
- ランダム剪定は、モデルサイズが大きくなるにつれて、実質的な効率向上とロバスト性の利点をもたらし、密ベースラインと比較して有意な効果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。