Skip to main content
QUICK REVIEW

[论文解读] BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning

Asa Cooper Stickland, Iain Murray|arXiv (Cornell University)|Feb 7, 2019
Topic Modeling被引用 113
一句话总结

本文介绍 PALs (Projected Attention Layers),一种参数高效的适配模块,能够在共享的 BERT-base 模型之上实现多任务学习,达到与 GLUE 性能相当的水平,参数量约少7倍,并在 RTE 上达到最先进的结果。

ABSTRACT

Multi-task learning shares information between related tasks, sometimes reducing the number of parameters required. State-of-the-art results across multiple natural language understanding tasks in the GLUE benchmark have previously used transfer from a single large task: unsupervised pre-training with BERT, where a separate BERT model was fine-tuned for each task. We explore multi-task approaches that share a single BERT model with a small number of additional task-specific parameters. Using new adaptation modules, PALs or `projected attention layers', we match the performance of separately fine-tuned models on the GLUE benchmark with roughly 7 times fewer parameters, and obtain state-of-the-art results on the Recognizing Textual Entailment dataset.

研究动机与目标

  • 在大型预训练变换器(BERT)之上,推动并发展参数高效的多任务学习。
  • 提出 PALs 作为低保真度、共享参数的适配,用于增强自注意力层。
  • 探索训练调度(采样策略)以缓解多任务学习中的任务不平衡。
  • 在 GLUE 任务上将 PALs 与其他适配模块及基线进行比较,以评估效率和性能。

提出的方法

  • 引入 Projected Attention Layers (PALs),作为一种低维、共享的编码器/解码器变换,应用于 BERT 层内或顶部。
  • 在 1.13x 参数预算下,尝试多种适配策略(PALs、低秩层、顶部/底部的附加)
  • 使用 V^E 和 V^D 编码器/解码器矩阵,配合较小的隐藏维度 d_s,在跨任务的共享方式中创建任务特定的变换 g(·)。
  • 在八个 GLUE 任务上进行评估,采用多任务训练方案和退火/平方根采样以平衡任务。
  • 与微调的 BERT-base 及其他适配器进行比较,报告在 MNLI, QQP, QNLI, SST-2, CoLA, STS-B, MRPC, 和 RTE 上的性能。

实验结果

研究问题

  • RQ1如何在只有少量任务特异参数的条件下,利用单个 BERT-base 模型高效适配多任务?
  • RQ2与完全微调及其他适配策略相比,添加 PALs 或其他适配器对 GLUE 性能的影响如何?
  • RQ3应将适配参数放置在网络的何处(顶部 vs 层内)以实现最佳多任务效率和性能?
  • RQ4哪些训练调度策略最有效缓解多任务学习中的任务不平衡?

主要发现

方法参数MNLI-(m/mm)QQPQNLISST-2CoLASTS-BMRPCRTE平均
BERT-base8 ×84.6 /83.489.2 /71.290.193.552.185.884.8 / 88.966.479.6
Shared1.00 ×84.0/83.488.9/70.889.393.451.283.681.3/86.776.679.9
Top Proj. Attn.1.10 ×84.0/83.288.8/71.289.793.247.185.383.1/87.575.579.6
PALs (204)1.13 ×84.3/ 83.589.2 / 71.590.092.651.285.884.6/88.776.080.4
  • PALs 在许多 GLUE 任务上实现了与微调的 BERT-base 相当的性能,参数量约少7倍。
  • PALs 显著提升 RTE 的性能,相较于 BERT-large 和 MT-DNN 基线,达到最先进的结果。
  • 在大型句对任务(MNLI、QQP、QNLI)上,PALs 与 BERT-base 性能相当,结果类似或略好。
  • 在任务内与跨任务的参数共享策略表明,适配每一层(使用 PALs 或低秩层)通常比仅适配顶部或子集层得到更好结果。
  • 六层 PALs(共享 V^E 与 V^D)和低秩适配器在 1.13x 参数预算内提供了强性能。
  • 跨任务的简单共享(完全共享的模型)表现具有竞争力,但任务特定的池化和顶部适配在某些任务如 RTE 上可能降低性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。