[論文レビュー] Movement Pruning: Adaptive Sparsity by Fine-Tuning
本論文は移動 pruning(Movement Pruning)を提案する。これは一階導関数ベースの、ファインチューニングを前提としたウェイト剪定法であり、蓄積されたウェイトの動きを用いて剪定可能なウェイトを選択する。高いスパース性領域において、特に蒸留を併用した場合に、BERTなどの事前学習済み言語モデルで強い性能を示す。
Magnitude pruning is a widely used strategy for reducing model size in pure supervised learning; however, it is less effective in the transfer learning regime that has become standard for state-of-the-art natural language processing applications. We propose the use of movement pruning, a simple, deterministic first-order weight pruning method that is more adaptive to pretrained model fine-tuning. We give mathematical foundations to the method and compare it to existing zeroth- and first-order pruning methods. Experiments show that when pruning large pretrained language models, movement pruning shows significant improvements in high-sparsity regimes. When combined with distillation, the approach achieves minimal accuracy loss with down to only 3% of the model parameters.
研究の動機と目的
- 転移学習時に事前学習済みウェイトをタスクデータで微調整する際の剪定を動機づける。
- Movement pruningを第一階微分に基づく適応的剪定法として導入する。
- 零次・一階剪定法と比較しつつ、数学的な基礎を提供する。
- 高いスパース性領域での強力な性能と、NLPタスクでの蒸留併用効果を示す。
提案手法
- 重要度スコアSとマスクMを定義し、ファインチューニング時の動きに基づいてウェイトを剪定する。
- ハードムーブメント剪定でマスクを学習するストレートスルー推定器を用い、勾配は ∂L/∂S_{i,j} = ∂L/∂a_i · W_{i,j} · x_j に従う。
- 一定のしきい値とスパース性正則化項を用いたソフトムーブメント剪定の変種を提供し、時間とともにスコアを減少させるよう促す。
- このフレームワークにおける勾配伝播の仕組みと、Movement pruningをL0正則化と結びつけて説明する。
- SQuAD、MNLI、QQP上でBERT-base-uncasedを用い、三次のスパース性スケジュールとタスク固有のファインチューニングを実験する。
- 蒸留を取り入れて、剪定法間での性能を向上させ、高いスパース性でも強い性能を維持する。
実験結果
リサーチクエスチョン
- RQ1Movement pruningはNLPにおける転移学習シナリオでMagnitude pruningより優れているか?
- RQ2ファインチューニング時の一階情報の動きが、スパース性パターンと高スパース性での性能にどう影響するか?
- RQ3蒸留を用いたソフトムーブメント剪定はモデルサイズと精度のトレードオフを改善するか?
- RQ4局所マスキングとグローバルマスキング戦略の下で剪定モデルの特徴はどうなるか?
主な発見
| Method | SQuAD Dev EM/F1 | Remaining Weights (%) | MNLI Dev acc/MM acc | QQP Dev acc/F1 |
|---|---|---|---|---|
| MaP | 40.1/54.5 | 3% | 68.9/69.8 | 72.1/58.4 |
| L0 Regu | 61.2/73.3 | 3% | 75.1/75.4 | 86.5/81.0 |
| MvP | 65.2/76.3 | 3% | 76.1/76.7 | 85.6/81.0 |
| soft MvP | 69.5/79.9 | 3% | 79.0/79.6 | 89.3/85.6 |
- Movement pruningは高スパース性領域(残存ウェイト<15%)でMagnitude pruningを大きく上回る。
- 高スパース性設定では、蒸留と組み合わせたときにSoft movement pruningが最も良い性能を発揮する。
- SQuADで残存ウェイト3%の場合、Movement pruningは65.2/76.3 (EM/F1)を達成し、Soft movement pruningは69.5/79.9。
- MNLIで3%残存ウェイトの場合、Soft movement pruningは79.0/79.6 (acc/mm acc)に達する。
- QQPで3%残存ウェイトの場合、Soft movement pruningは89.3/85.6 (acc/F1)に達する。
- 蒸留は全ての剪定法で性能を向上させ、高スパース性でも強い性能を維持する(例:SQuAD 3%で蒸留時は76.6/84.9へ)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。