[论文解读] Encoder-Agnostic Adaptation for Conditional Language Generation
本文提出伪自注意力(pseudo self-attention),一种无需任务特定编码器即可将预训练语言模型适配于条件文本生成的方法。通过直接将任务特定的条件信息注入自注意力机制,该方法在摘要生成、故事生成和图像字幕等多样化生成任务中,实现了更优的连贯性、更高的数据效率和更强的性能表现,即使在有限微调数据下,也优于强基线模型和非预训练模型。
Large pretrained language models have changed the way researchers approach discriminative natural language understanding tasks, leading to the dominance of approaches that adapt a pretrained model for arbitrary downstream tasks. However it is an open-question how to use similar techniques for language generation. Early results in the encoder-agnostic setting have been mostly negative. In this work we explore methods for adapting a pretrained language model to arbitrary conditional input. We observe that pretrained transformer models are sensitive to large parameter changes during tuning. We therefore propose an adaptation that directly injects arbitrary conditioning into self attention, an approach we call pseudo self attention. Through experiments on four diverse conditional text generation tasks we show that this encoder-agnostic technique outperforms strong baselines, produces coherent generations, and is data efficient.
研究动机与目标
- 解决在无需任务特定编码器的情况下,将预训练语言模型适配于条件文本生成的挑战。
- 探究标准微调方法为何在无编码器设置下的生成任务中会失效。
- 开发一种方法,在保留预训练模型生成质量的同时,实现对任意输入模态的有效条件化。
- 在长文本条件生成中,展示数据效率和生成连贯性的显著提升。
- 强调在自然语言理解(NLU)中提升源表示与在自然语言生成(NLG)中提升生成能力之间的根本差异。
提出的方法
- 提出伪自注意力,将任务特定的条件信息注入预训练解码器的自注意力机制中。
- 使用任务特定的编码器生成一个条件向量,并将其作为可学习的查询/键/值注入自注意力层。
- 通过将注入的条件视为伪标记序列,保持原始Transformer架构不变,从而保留注意力动态特性。
- 端到端微调整个模型,使预训练解码器能够适应新输入,同时保留其语言建模能力。
- 以标准Transformer解码器(如GPT-2)为基础模型,并将该方法应用于多种输入模态(文本、图像、类别标签)。
- 在微调过程中与解码器联合训练任务特定编码器,使模型能够学习如何对任意输入进行有效条件化。
实验结果
研究问题
- RQ1为何标准微调方法在无编码器设置下适配预训练语言模型进行条件生成时会失效?
- RQ2能否设计一种方法,在保留预训练模型生成质量的同时,实现对任意输入模态的有效条件化?
- RQ3与基线适配技术相比,直接将条件信息注入自注意力机制是否能带来更好的连贯性和数据效率?
- RQ4在性能和生成输出质量方面,伪自注意力与基于融合或预训练的基线方法相比如何?
- RQ5该方法在提升生成质量的同时,能在多大程度上保持对输入上下文的忠实度?
主要发现
- 伪自注意力在四项多样化条件生成任务中,均优于强基线模型,包括基于融合的方法和非预训练模型。
- 即使在训练数据有限的情况下,该方法仍能实现显著的性能提升,展现出极高的数据效率。
- 在电影评论生成任务中,仅使用1.8k个训练样本的伪自注意力模型即可生成连贯、语法正确的文本,而非预训练基线模型则无法保持连贯性。
- 定性分析显示,与基线模型相比,伪自注意力生成的输出更具一致性且更具叙事性,而基线模型常产生不连贯或重复的文本。
- 该方法在保持对输入上下文高度忠实的同时,显著提升了生成质量,即使输入模态为非文本形式(如图像或类别标签)亦是如此。
- 结果表明,在自然语言理解(NLU)中提升源表示与在自然语言生成(NLG)中提升生成能力之间存在根本性差异,后者需要如伪自注意力这类架构创新。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。