[论文解读] LFPT5: A Unified Framework for Lifelong Few-shot Language Learning Based on Prompt Tuning of T5
LFPT5 将预训练的 T5 模型冻结,并使用可调的提示嵌入来解决跨领域和跨任务类型的终身学习少样本 NLP 任务,在生成伪样本和强制标签一致性的同时以缓解遗忘;在命名实体识别、文本分类和摘要等任务上取得了显著结果。
Existing approaches to lifelong language learning rely on plenty of labeled data for learning a new task, which is hard to obtain in most real scenarios. Considering that humans can continually learn new tasks from a handful of examples, we expect the models also to be able to generalize well on new few-shot tasks without forgetting the previous ones. In this work, we define this more challenging yet practical problem as Lifelong Few-shot Language Learning (LFLL) and propose a unified framework for it based on prompt tuning of T5. Our framework called LFPT5 takes full advantage of PT's strong few-shot learning ability, and simultaneously trains the model as a task solver and a data generator. Before learning a new domain of the same task type, LFPT5 generates pseudo (labeled) samples of previously learned domains, and later gets trained on those samples to alleviate forgetting of previous knowledge as it learns the new domain. In addition, a KL divergence loss is minimized to achieve label consistency between the previous and the current model. While adapting to a new task type, LFPT5 includes and tunes additional prompt embeddings for the new task. With extensive experiments, we demonstrate that LFPT5 can be applied to various different types of tasks and significantly outperform previous methods in different LFLL settings.
研究动机与目标
- 将 Lifelong Few-shot Language Learning (LFLL) 定义为一个实际且具有挑战性的设置,结合了领域(同一任务)和任务类型(不同任务)的变体。
- 提出 LFPT5,一个统一框架,使用冻结的 T5 主干的提示调优来同时充当任务求解器和数据生成器。
- 通过回放先前学习领域的伪样本并使用 KL 散度强制标签一致性来缓解灾难性遗忘。
- 在极少样本情境下,在序列标注、文本分类和文本生成任务中演示 LFPT5 的有效性。
- 将 LFPT5 代码库开源,以便复现性和更广泛的使用。
提出的方法
- 将所有任务重新框定为文本到文本格式,使用 T5 作为冻结的主干。
- 采用按任务或领域学习的提示嵌入 P,以适应新任务,同时保持 T5 冻结。
- 在学习新领域时,从先前领域生成伪标记样本,并在它们与新领域数据的组合上进行训练,以减少遗忘。
- 在伪样本上最小化前后模型输出之间的 KL 散度损失,以确保标签一致性。
- 在适应新任务类型时,为新任务添加并训练一组新的提示嵌入,同时冻结先前的嵌入,从而实现任务提示的动态扩展。
- 使用 TASK 损失(给定 X 的 Y)和对生成的伪样本的 LM 损失,组合为 L_phi = L_phi^{task} + lambda_lm * L_phi^{lm},并使用 KL 正则化 lambda_kl * L_phi^{KL}。
实验结果
研究问题
- RQ1LFPT5 是否能够在同域域变动和跨不同任务类型的新少样本任务上推广,而不发生灾难性遗忘?
- RQ2伪样本生成与标签一致性 KL 散度是否显著提升对先前知识的保持?
- RQ3在极少样本设置下,与强基线相比,LFPT5 在 NER、文本分类和文本生成任务上的表现如何?
- RQ4任务类型之间的前向知识迁移对在 LFLL 中学习新任务有何影响?
主要发现
- 在极少样本设置下,LFPT5 在 NER、分类和摘要方面显著优于先前的终身学习基线。
- 使用 LFPT5 的提示调优在少样本情境下取得强劲结果,并比像 EWC 和 MAS 这样的正则化基线更好地缓解遗忘。
- 生成伪样本并应用 KL 散度标签一致性损失在领域扩展过程中显著提升对先前学得知识的保持。
- 在学习新任务类型时,LFPT5 的每个任务提示条目仅需约 0.04% 的 T5 参数,凸显参数效率。
- 带有前向知识迁移的 LFPT5 变体可能有助于也可能阻碍学习,这取决于任务顺序,但总体而言 LFPT5 在学习多任务类型方面优于竞争方法。
- LFPT5 的伪数据质量高到足以支持记忆型回放,尽管生成的标签可能不正确,表明仍有提升伪样本可靠性的空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。