QUICK REVIEW

[论文解读] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning

Asa Cooper Stickland, Iain Murray|arXiv (Cornell University)|Feb 7, 2019

Topic Modeling被引用 113

一句话总结

本文介绍 PALs (Projected Attention Layers)，一种参数高效的适配模块，能够在共享的 BERT-base 模型之上实现多任务学习，达到与 GLUE 性能相当的水平，参数量约少7倍，并在 RTE 上达到最先进的结果。

ABSTRACT

Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.

研究动机与目标

在大型预训练变换器（BERT）之上，推动并发展参数高效的多任务学习。
提出 PALs 作为低保真度、共享参数的适配，用于增强自注意力层。
探索训练调度（采样策略）以缓解多任务学习中的任务不平衡。
在 GLUE 任务上将 PALs 与其他适配模块及基线进行比较，以评估效率和性能。

提出的方法

引入 Projected Attention Layers (PALs)，作为一种低维、共享的编码器/解码器变换，应用于 BERT 层内或顶部。
在 1.13x 参数预算下，尝试多种适配策略（PALs、低秩层、顶部/底部的附加）
使用 V^E 和 V^D 编码器/解码器矩阵，配合较小的隐藏维度 d_s，在跨任务的共享方式中创建任务特定的变换 g(·)。
在八个 GLUE 任务上进行评估，采用多任务训练方案和退火/平方根采样以平衡任务。
与微调的 BERT-base 及其他适配器进行比较，报告在 MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, 和 RTE 上的性能。

实验结果

研究问题

RQ1如何在只有少量任务特异参数的条件下，利用单个 BERT-base 模型高效适配多任务？
RQ2与完全微调及其他适配策略相比，添加 PALs 或其他适配器对 GLUE 性能的影响如何？
RQ3应将适配参数放置在网络的何处（顶部 vs 层内）以实现最佳多任务效率和性能？
RQ4哪些训练调度策略最有效缓解多任务学习中的任务不平衡？

主要发现

方法	参数	MNLI-(m/mm)	QQP	QNLI	SST-2	CoLA	STS-B	MRPC	RTE	平均
BERT-base	8 ×	84.6 /83.4	89.2 /71.2	90.1	93.5	52.1	85.8	84.8 / 88.9	66.4	79.6
Shared	1.00 ×	84.0/83.4	88.9/70.8	89.3	93.4	51.2	83.6	81.3/86.7	76.6	79.9
Top Proj. Attn.	1.10 ×	84.0/83.2	88.8/71.2	89.7	93.2	47.1	85.3	83.1/87.5	75.5	79.6
PALs (204)	1.13 ×	84.3/ 83.5	89.2 / 71.5	90.0	92.6	51.2	85.8	84.6/88.7	76.0	80.4

PALs 在许多 GLUE 任务上实现了与微调的 BERT-base 相当的性能，参数量约少7倍。
PALs 显著提升 RTE 的性能，相较于 BERT-large 和 MT-DNN 基线，达到最先进的结果。
在大型句对任务（MNLI、QQP、QNLI）上，PALs 与 BERT-base 性能相当，结果类似或略好。
在任务内与跨任务的参数共享策略表明，适配每一层（使用 PALs 或低秩层）通常比仅适配顶部或子集层得到更好结果。
六层 PALs（共享 V^E 与 V^D）和低秩适配器在 1.13x 参数预算内提供了强性能。
跨任务的简单共享（完全共享的模型）表现具有竞争力，但任务特定的池化和顶部适配在某些任务如 RTE 上可能降低性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。