[論文レビュー] Picking Winning Tickets Before Training by Preserving Gradient Flow
GraSPは初期化時に勾配フローを保持することでニューラルネットワークを剪定し、最大80%の重み剪定(ImageNet)を可能にする。
Overparameterization has been shown to benefit both the optimization and generalization of neural networks, but large networks are resource hungry at both training and test time. Network pruning can reduce test-time resource requirements, but is typically applied to trained networks and therefore cannot avoid the expensive training process. We aim to prune networks at initialization, thereby saving resources at training time as well. Specifically, we argue that efficient training requires preserving the gradient flow through the network. This leads to a simple but effective pruning criterion we term Gradient Signal Preservation (GraSP). We empirically investigate the effectiveness of the proposed method with extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet, using VGGNet and ResNet architectures. Our method can prune 80% of the weights of a VGG-16 network on ImageNet at initialization, with only a 1.6% drop in top-1 accuracy. Moreover, our method achieves significantly better performance than the baseline at extreme sparsity levels.
研究の動機と目的
- トレーニング資源を節約するために訓練前の剪定を提案する。
- パラメータ間の依存関係を考慮する勾配フローに基づく剪定基準を提案する。
- VGGNetとResNetアーキテクチャでCIFAR、Tiny-ImageNet、ImageNetを横断して有効性を示す。
- 剪定が訓練ダイナミクスに与える影響を分析し、結果を Neural Tangent Kernel に関連づける。
提案手法
- Gradient Signal Preservation (GraSP) を剪定基準として導入する。
- ヘッセ行列と勾配の積を計算して、重みを剪定することが勾配フローに与える影響を評価する。
- S(-θ) = -θ ⊙ (H g) によって重みをスコアリングし、最もスコアが低い上位 p 分を剪定する。
- 初期化から得られたスパースネットワークを訓練し、性能を評価する。
- NTK の知見を活用して剪定効果を最適化ダイナミクスに関連づける。
実験結果
リサーチクエスチョン
- RQ1完全な密なモデルを訓練せずに、初期化時にネットワークを効果的に剪定できるか。
- RQ2剪定中に勾配フローを保持することは、高い希少性で訓練性と最終精度を向上させるか。
- RQ3GraSPは最新のアーキテクチャとデータセットにおいてSNIPや他のベースラインとどう比較されるか。
- RQ4GraSPの性能における初期化とバッチサイズの役割は何か。
主な発見
- GraSPは初期化時にImageNetでVGG-16の重みの最大80%を剪定でき、top-1精度はわずか1.6%低下する。
- GraSPは極端な希少性においてCIFAR-10/100、Tiny-ImageNet、ImageNetを通じてSNIPを一貫して上回る。
- GraSPはランダム剪定より勾配フローの維持を向上させ、しばしばlate-reset lottery ticketsや一部のDSTベースラインに近づくか上回る。
- GraSPによる剪定ネットワークは訓練時の損失減少が速く、高い希少性での勾配ノルムがSNIPよりも良好である。
- GraSPはNTKベースの予測と一致し、出力空間勾配の高分散方向を保持して効率的な最適化を促す。
- GraSPは異なる初期化やバッチサイズに対して頑健であり、特にKaimingのような一般的な初期化で顕著。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。