[論文レビュー] Reweighted Proximal Pruning for Large-Scale Language Representation
本論文は Reweighted Proximal Pruning (RPP) を紹介し、BERT で最大59.3% のウェイトのスパース性を達成し、事前学習への影響は最小で、多くのダウンストリームタスクでベースラインの反復プルーニング手法(NIP)よりも高いパフォーマンスを示します。特に高いプルーニング比で。
Recently, pre-trained language representation flourishes as the mainstay of the natural language understanding community, e.g., BERT. These pre-trained language representations can create state-of-the-art results on a wide range of downstream tasks. Along with continuous significant performance improvement, the size and complexity of these pre-trained neural models continue to increase rapidly. Is it possible to compress these large-scale language representation models? How will the pruned language representation affect the downstream multi-task transfer learning objectives? In this paper, we propose Reweighted Proximal Pruning (RPP), a new pruning method specifically designed for a large-scale language representation model. Through experiments on SQuAD and the GLUE benchmark suite, we show that proximal pruned BERT keeps high accuracy for both the pre-training task and the downstream multiple fine-tuning tasks at high prune ratio. RPP provides a new perspective to help us analyze what large-scale language representation might learn. Additionally, RPP makes it possible to deploy a large state-of-the-art language representation model such as BERT on a series of distinct devices (e.g., online servers, mobile phones, and edge devices).
研究の動機と目的
- 大規模な事前学習済み言語表現(例: BERT)を転移学習性能を損なうことなく圧縮することを動機づけ、可能にする。
- プルーニング後の事前学習モデルから開始した場合でもダウンストリームの多タスク転移学習の目的を保つプルーニング手法を開発する。
- プルーニング下でトランスフォーマーベースの言語モデルにおけるスパース性パターンと解釈可能性を調査する。
- 事前学習とファインチューニングタスクを横断するパフォーマンスとプルーニング比のトレードオフに関する経験的証拠を提供する。
提案手法
- sparsity pattern search と勾配ベース更新を分離するために Reweighted L1 最小化と proximal 演算子を組み合わせて導入する。
- Reweighted factors alpha_i を alpha_i = 1/(|w_i| + epsilon) に更新しつつ sparsity-penalized objective f0(w) + gamma sum_i alpha_i |w_i| を反復的に解く。
- 再重み付き L1 項を用いた近似演算子を用いて重み (w) を更新する閉形式の proximal 演算子を用い、スパースパターンの発見を効率化し、スパースペナルティをバックプロパゲートせずに済む。
- 一般化を向上させるためにデカップルドウェイト正則化哲学に合わせて optimizer として AdamW を採用する。
- RPP を New Iterative Pruning (NIP) ベースラインと比較し、MLM/NSP の事前学習と複数の GLUE/SQuAD タスクでのパフォーマンスを報告する。
実験結果
リサーチクエスチョン
- RQ1大規模な事前学習済み言語表現(たとえば BERT)をウェイトレベルで効果的にプルーニングして転移学習性能を損なわないことは可能か。
- RQ2事前学習済みモデルのプルーニング比が下流タスクの性能にどのように影響するか。
- RQ3再重み付き近傍プルーニングの下でトランスフォーマーブロックに現れるスパースパターンは何であり、それらの言語的・注意機構の解釈は何か。
主な発見
| Prune Ratio (%) | SQuAD 1.1 | QQP | MNLI | MRPC | CoLA |
|---|---|---|---|---|---|
| 50.0 | 85.3 (-5.6) | 85.1 (-6.1) | 77.0 (-9.1) | 83.5 (-5.5) | 76.3 (-5.2) |
| 80.0 | 75.1 (-15.8) | 81.1 (-10.1) | 73.81 (-12.29) | 68.4 (-20.5) | 69.13 (-12.37) |
| 59.3 | 90.23 (-0.67) | 91.2 (-0.0) | 86.1 (-0.0) | 88.1 (-1.2) | 82.8 (+1.3) |
| 88.4 | 81.69 (-9.21) | 89.2 (-2.0) | 81.4 (-4.7) | 81.9 (-7.1) | 79.3 (-2.2) |
| 50.0 | 75.3 (-6.6) | 90.2 (-1.1) | 82.5 (-3.4) | 91.3 (-1.9) | 68.6 (-1.5) |
| 80.0 | 70.1 (-11.8) | 80.5 (-10.8) | 78.4 (-7.5) | 88.7 (-4.5) | 62.8 (-7.3) |
| 59.3 | 81.3 (-0.6) | 92.3 (+1.0) | 85.7 (-0.2) | 92.4 (-0.8) | 70.1 (-0.0) |
| 88.4 | 80.7 (-1.2) | 88.0 (-3.3) | 81.8 (-4.1) | 90.5 (-2.7) | 67.5 (-2.6) |
- RPP は BERT で 59.3% のウェイトスパース性を達成して、報告された設定において事前学習やファインチューニングの性能を劣化させない。
- NSP の精度は高いプルーニング下で堅牢であり(RPP の場合 90% プルーニングで 95% 以上、NIP の場合は約 90%)。
- SQuAD 1.1 では、RPP は 41.2% のプルーニングで F1 を 88.5 に保持(劣化ゼロ)、80% のプルーニングでも F1 を 84.7 に維持(3.8 の劣化)、NIP よりも同程度のプルーニングレベルで劣化が大きい点を上回る。
- BERT-LARGE の場合、RPP の 59.3% プルーニングは SQuAD1.1 と GLUE の結果で競争力を保ち、CoLA は NIP ベースラインより一部タスクで +1.3 の改善を示し、より高いプルーニングレベル(例:報告行の 88.4% で 88.4% の行)でも高い性能を維持する。
- RPP は transformer ブロック内の Q と K 行列で構造化スパースパターンを発見する(Q の列方向スパース、K の行方向スパース)そして t-SNE 可視化により埋め込みの意味的構造が保持されることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。