QUICK REVIEW

[论文解读] Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning

Zhen Wang, Rameswar Panda|arXiv (Cornell University)|Mar 6, 2023

Topic Modeling被引用 30

一句话总结

MPT 通过跨任务蒸馏学习一个单一的可转移软提示，以及具有低秩任务特定更新的共享提示，在极少可调参数的情况下实现强传输，甚至在某些任务上超过全量微调。

ABSTRACT

Prompt tuning, in which a base pretrained model is adapted to each task via conditioning on learned prompt vectors, has emerged as a promising approach for efficiently adapting large language models to multiple downstream tasks. However, existing methods typically learn soft prompt vectors from scratch, and it has not been clear how to exploit the rich cross-task knowledge with prompt vectors in a multitask learning setting. We propose multitask prompt tuning (MPT), which first learns a single transferable prompt by distilling knowledge from multiple task-specific source prompts. We then learn multiplicative low rank updates to this shared prompt to efficiently adapt it to each downstream target task. Extensive experiments on 23 NLP datasets demonstrate that our proposed approach outperforms the state-of-the-art methods, including the full finetuning baseline in some cases, despite only tuning 0.035% as many task-specific parameters.

研究动机与目标

激励在跨众多 NLP 任务中降低适应大型语言模型的参数成本。
通过分解和蒸馏，开发一个多任务框架，从多个源任务学习一个共享提示。
通过对共享提示的低秩乘法更新，实现对新任务的高效适应。
展示跨自然语言理解（NLU）和自然语言生成（NLG）任务以及不同模型规模的广泛迁移能力。

提出的方法

将每个源任务提示 Pk 分解为通过哈达玛乘积得到的共享提示 P* 和低秩任务特异分量 Wk，其中 Wk = uk ⊗ vk^T。
通过对独立训练的源任务提示进行知识蒸馏，以通过 logits 和隐藏状态损失学习高质量的可分解共享提示。
在源任务上用常规提示微调训练教师提示，然后训练共享 P* 的学生提示，以最小化 KL 散度和隐藏状态均方误差，形成 LTotal = LPLM + λ (L_logits + L_hidden)。
通过初始化 P̂t = P* ∘ (ut ⊗ vt^T) 并联合更新 P*, ut, vt 以最小化任务特定损失来适应目标任务；对 P* 与 ut, vt 使用不同的学习率。
参数效率在适应后每个任务只需要 (l×d) + (l+d) 个可调参数，总计每个任务的 (l×d) + (l+d)，在某些设置中每个任务仅占 0.035% 的可调参数。
两阶段工作流程：1) 通过多任务源训练与蒸馏训练单一共享提示；2) 通过低秩乘法更新迁移到目标任务。

实验结果

研究问题

RQ1能否从多个源任务学习的单一可转移提示在未见的目标任务上优于任务特定提示？
RQ2将提示分解为共享和低秩任务特异成分是否能改善跨任务迁移并减少干扰？
RQ3蒸馏损失（logits 和隐藏状态）是否提高下游迁移中共享提示的质量？
RQ4与全量微调及其他参数高效方法相比，MPT 在多样化的 NLP 任务（NLU 和 NLG）和不同模型规模下的表现如何？
RQ5少量样本数据对 MPT 提示的可迁移性有何影响？

主要发现

MPT 在 23 个 NLP 数据集上取得强劲结果，通常优于全量微调，同时仅微调 0.035% 的任务特定参数。
在 GLUE 和 SuperGLUE 上，MPT 相对于 GLUE 的 vanilla 提示微调提升了 13% 的相对改进，相对于 SuperGLUE 的 vanilla PT 提升了 16%。
MPT 超越 SPoT、ATTEMPT 和 BitFit，同时使用显著更少的任务特定参数，在某些基准上甚至超过全量微调。
提示分解加蒸馏带来显著提升（SuperGLUE 平均值 74.1，使用分解+蒸馏，与不使用相比为 69.5）。
MPT 将从 NLU 源任务学到的提示迁移到 NLG 目标（E2E、WebNLG），相较 vanilla PT 的 BLEU 提升分别为 3.03% 和 6.25%。
在模型规模（T5-Small 到 T5-Large）之间，MPT 仍具竞争力，且在参数效率和性能方面通常更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。