QUICK REVIEW

[论文解读] Parameter-Efficient Transfer Learning for NLP

Neil Houlsby, Andrei Giurgiu|arXiv (Cornell University)|Feb 2, 2019

Topic Modeling参考文献 48被引用 144

一句话总结

这篇论文为 Transformer 模型引入适配器模块，以实现 NLP 任务的参数高效迁移学习，仅使用极少量任务特定参数即可达到接近全量微调的性能。

ABSTRACT

Fine-tuning large pre-trained models is an effective transfer mechanism in NLP. However, in the presence of many downstream tasks, fine-tuning is parameter inefficient: an entire new model is required for every task. As an alternative, we propose transfer with adapter modules. Adapter modules yield a compact and extensible model; they add only a few trainable parameters per task, and new tasks can be added without revisiting previous ones. The parameters of the original network remain fixed, yielding a high degree of parameter sharing. To demonstrate adapter's effectiveness, we transfer the recently proposed BERT Transformer model to 26 diverse text classification tasks, including the GLUE benchmark. Adapters attain near state-of-the-art performance, whilst adding only a few parameters per task. On GLUE, we attain within 0.4% of the performance of full fine-tuning, adding only 3.6% parameters per task. By contrast, fine-tuning trains 100% of the parameters per task.

研究动机与目标

为依次到来的大量 NLP 任务提供参数高效的迁移学习方法。
提出在预训练 Transformer 中嵌入的适配器模块，以实现紧凑且可扩展的任务适应。
证明适配器在 GLUE 等其他 NLP 任务上以很小的参数量实现接近最新阶段的性能。

提出的方法

引入一个瓶颈式适配器模块，插入在每个 Transformer 子层之后；适配器是小型、可训练的层，初始化接近恒等映射。
冻结原始模型参数；仅训练适配器参数以及任务特定的层规范和分类头。
在两层瓶颈结构中添加适配器以控制参数增长（大小 m，输入维度为 d）。
在每个 Transformer 层中，在投影回输入维度之后但在残差连接之前附加适配器，并训练每个任务的层规范参数。
在 GLUE 和 SQuAD 上证明性能接近全量微调，同时使用较小比例的可训练参数（每层仅原始模型的 0.5-8%）。
在多样数据集上将适配器微调与全量微调及顶层微调进行比较，显示参数效率优势。

实验结果

研究问题

RQ1适配器模块能否实现逐任务的顺序学习，而无需重新训练整个模型？
RQ2在多种 NLP 任务中，适配器微调的参数效率与全量微调相比如何？
RQ3适配器大小对性能与参数量之间有何影响？
RQ4适配器是否不仅限于分类，还能在如 SQuAD 这样的任务中泛化？
RQ5使用适配器时，哪些层对任务适应贡献最大？

主要发现

Model	Total Params (×)	Trained Params / Task (%)	CoLA	SST	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI	RTE	Total GLUE Score
BERT LARGE	9.0×	100%	60.5	94.9	89.3	87.6	72.1	86.7	85.9	91.1	70.1	80.4
Adapters (8-256)	1.3×	3.6%	59.5	94.0	89.5	86.9	71.8	84.9	85.1	90.7	71.5	80.0
Adapters (64)	1.2×	2.1%	56.9	94.2	89.6	87.3	71.8	85.3	84.6	91.4	68.8	79.6

基于适配器的微调在 GLUE 上的性能比全量微调低0.4%以内，同时每个任务仅使用大约 3% 的训练参数。
在 GLUE 和另外 17 个任务中，适配器实现了接近 state-of-the-art 的结果，同时显著降低了任务特定参数量（GLUE 总计1.3x；在 17 个任务中为 1.19x）。
适配器大小提供了明确的权衡；即使极小的适配器（0.5-2% 的参数）也能提供强劲表现，而较高层通常更具任务特异性。
仅对层归一化进行训练远不及适配器的效果，强调对更深层表示进行修改的收益。
SQuAD 的结果显示，适配器在可训练参数更少的情况下实现具有竞争力的性能（例如 2% 的适配器接近最佳 F1；0.1% 的适配器仍然表现出强劲结果）。
消融分析表明，适配器共同带来性能提升，其中更高的层对任务适应贡献更大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。