[論文レビュー] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning
本論文は PALs (Projected Attention Layers) を紹介する。これは共有BERT-baseモデル上でマルチタスク学習を可能にするパラメータ効率の適応モジュールであり、約7分の1のパラメータ数でGLUEの性能と同等、RTEでは最先端を達成する。
Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.
研究の動機と目的
- 大規模事前学習済みトランスフォーマー(BERT)の上に、パラメータ効率の良いマルチタスク学習を動機づけ・開発する。
- 自己注意層を補強する低忠実度の共有パラメータ適応としてPALsを提案する。
- マルチタスク学習中のタスク不均衡を緩和する訓練スケジュール(サンプリング戦略)の探索。
- GLUEタスクに対する他の適応モジュールおよびベースラインとPALsを比較し、効率と性能を評価する。
提案手法
- Project Attention Layers (PALs) を、低次元の共有エンコーダ/デコーダ変換として、BERT層内またはトップで適用する。
- 1.13xのパラメータ予算の下で、複数の適応戦略(PALs、低ランク層、上部/下部の追加)を実験する。
- V^E および V^D エンコーダ/デコーダ行列を使用し、隠れ層サイズ d_s を縮小して、タスク間で共有された形で g(·) を作成する。
- マルチタスク訓練 regime と退火/平方根サンプリングを用いて、8つのGLUEタスクを評価し、タスクのバランスを取る。
- ファインチューニング済みの BERT-base および他のアダプタと比較し、MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, RTE に跨る性能を報告する。
実験結果
リサーチクエスチョン
- RQ1単一の BERT-base モデルを、少数のタスク特異的パラメータで効率的に複数タスクへ適応するにはどうすればよいか?
- RQ2PALs や他のアダプタを追加することが、GLUE の性能に対して、完全なファインチューニングおよび他の適応戦略と比べてどのような影響を与えるか?
- RQ3ネットワークのどこに適応パラメータを配置すべきか(トップ vs 層内)を、最良のマルチタスク効率と性能の観点から?
- RQ4マルチタスク学習でタスク不均衡を緩和するのに最適な訓練スケジュール戦略は何か?
主な発見
| 方法 | パラメータ数 | MNLI-(m/mm) | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 8 × | 84.6 /83.4 | 89.2 /71.2 | 90.1 | 93.5 | 52.1 | 85.8 | 84.8 / 88.9 | 66.4 | 79.6 |
| Shared | 1.00 × | 84.0/83.4 | 88.9/70.8 | 89.3 | 93.4 | 51.2 | 83.6 | 81.3/86.7 | 76.6 | 79.9 |
| Top Proj. Attn. | 1.10 × | 84.0/83.2 | 88.8/71.2 | 89.7 | 93.2 | 47.1 | 85.3 | 83.1/87.5 | 75.5 | 79.6 |
| PALs (204) | 1.13 × | 84.3/ 83.5 | 89.2 / 71.5 | 90.0 | 92.6 | 51.2 | 85.8 | 84.6/88.7 | 76.0 | 80.4 |
- PALsは、多くのGLUEタスクでファインチューニング済みBERT-baseと同等の性能を、約7x fewer parametersで達成する。
- PALsはRTEの性能を著しく向上させ、BERT-largeおよびMT-DNNベースラインと比較して最先端の結果を達成する。
- 大規模文ペアタスク(MNLI、QQP、QNLI)では、PALsはBERT-baseの性能と同等で、同程度またはわずかに良い結果を示す。
- タスク内およびタスク間のパラメータ共有戦略は、すべての層を適応させる(PALsまたは低ランク層を用いる)方が、トップ一部だけ/層の一部だけを適応させるより一般的に良い結果を示す。
- 6層のPALs(共有 V^E と V^D を使用)と低ランクアダプタは、1.13xパラメータ予算内で強力な性能を提供する。
- タスク全体での単純な共有(完全共有モデル)は競争力があるが、タスク特異的プーリングとトップ適応は、RTE のような一部タスクで性能を低下させる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。