[论文解读] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning
本文介绍 PALs (Projected Attention Layers),一种参数高效的适配模块,能够在共享的 BERT-base 模型之上实现多任务学习,达到与 GLUE 性能相当的水平,参数量约少7倍,并在 RTE 上达到最先进的结果。
Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.
研究动机与目标
- 在大型预训练变换器(BERT)之上,推动并发展参数高效的多任务学习。
- 提出 PALs 作为低保真度、共享参数的适配,用于增强自注意力层。
- 探索训练调度(采样策略)以缓解多任务学习中的任务不平衡。
- 在 GLUE 任务上将 PALs 与其他适配模块及基线进行比较,以评估效率和性能。
提出的方法
- 引入 Projected Attention Layers (PALs),作为一种低维、共享的编码器/解码器变换,应用于 BERT 层内或顶部。
- 在 1.13x 参数预算下,尝试多种适配策略(PALs、低秩层、顶部/底部的附加)
- 使用 V^E 和 V^D 编码器/解码器矩阵,配合较小的隐藏维度 d_s,在跨任务的共享方式中创建任务特定的变换 g(·)。
- 在八个 GLUE 任务上进行评估,采用多任务训练方案和退火/平方根采样以平衡任务。
- 与微调的 BERT-base 及其他适配器进行比较,报告在 MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, 和 RTE 上的性能。
实验结果
研究问题
- RQ1如何在只有少量任务特异参数的条件下,利用单个 BERT-base 模型高效适配多任务?
- RQ2与完全微调及其他适配策略相比,添加 PALs 或其他适配器对 GLUE 性能的影响如何?
- RQ3应将适配参数放置在网络的何处(顶部 vs 层内)以实现最佳多任务效率和性能?
- RQ4哪些训练调度策略最有效缓解多任务学习中的任务不平衡?
主要发现
| 方法 | 参数 | MNLI-(m/mm) | QQP | QNLI | SST-2 | CoLA | STS-B | MRPC | RTE | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 8 × | 84.6 /83.4 | 89.2 /71.2 | 90.1 | 93.5 | 52.1 | 85.8 | 84.8 / 88.9 | 66.4 | 79.6 |
| Shared | 1.00 × | 84.0/83.4 | 88.9/70.8 | 89.3 | 93.4 | 51.2 | 83.6 | 81.3/86.7 | 76.6 | 79.9 |
| Top Proj. Attn. | 1.10 × | 84.0/83.2 | 88.8/71.2 | 89.7 | 93.2 | 47.1 | 85.3 | 83.1/87.5 | 75.5 | 79.6 |
| PALs (204) | 1.13 × | 84.3/ 83.5 | 89.2 / 71.5 | 90.0 | 92.6 | 51.2 | 85.8 | 84.6/88.7 | 76.0 | 80.4 |
- PALs 在许多 GLUE 任务上实现了与微调的 BERT-base 相当的性能,参数量约少7倍。
- PALs 显著提升 RTE 的性能,相较于 BERT-large 和 MT-DNN 基线,达到最先进的结果。
- 在大型句对任务(MNLI、QQP、QNLI)上,PALs 与 BERT-base 性能相当,结果类似或略好。
- 在任务内与跨任务的参数共享策略表明,适配每一层(使用 PALs 或低秩层)通常比仅适配顶部或子集层得到更好结果。
- 六层 PALs(共享 V^E 与 V^D)和低秩适配器在 1.13x 参数预算内提供了强性能。
- 跨任务的简单共享(完全共享的模型)表现具有竞争力,但任务特定的池化和顶部适配在某些任务如 RTE 上可能降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。