[论文解读] ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation
ERNIE-GEN 提出了一种用于自然语言生成的多流预训练与微调框架,通过掩蔽生成机制和噪声感知训练缓解了暴露偏差问题。通过引入逐跨度生成和多粒度目标采样,该方法在摘要生成、问题生成、对话回复和生成式问答任务上实现了最先进性能,且显著降低了数据和参数需求。
Current pre-training works in natural language generation pay little attention to the problem of exposure bias on downstream tasks. To address this issue, we propose an enhanced multi-flow sequence to sequence pre-training and fine-tuning framework named ERNIE-GEN, which bridges the discrepancy between training and inference with an infilling generation mechanism and a noise-aware generation method. To make generation closer to human writing patterns, this framework introduces a span-by-span generation flow that trains the model to predict semantically-complete spans consecutively rather than predicting word by word. Unlike existing pre-training methods, ERNIE-GEN incorporates multi-granularity target sampling to construct pre-training data, which enhances the correlation between encoder and decoder. Experimental results demonstrate that ERNIE-GEN achieves state-of-the-art results with a much smaller amount of pre-training data and parameters on a range of language generation tasks, including abstractive summarization (Gigaword and CNN/DailyMail), question generation (SQuAD), dialogue generation (Persona-Chat) and generative question answering (CoQA).
研究动机与目标
- 为解决序列到序列预训练中自然语言生成的暴露偏差问题,即训练时使用真实标签标记,而推理时依赖模型生成的标记。
- 通过在预训练中使模型行为与人类写作模式对齐(即生成连贯的短语而非逐词预测),提升生成质量。
- 通过使用多粒度目标采样而非单一段落掩码,增强长文本生成中编码器与解码器之间的相关性。
- 通过引入噪声感知生成和掩蔽机制,减少预训练与微调之间的差异,避免对最后一个标记的依赖。
提出的方法
- 引入一种使用特殊 [ATTN] 标记聚合所有先前隐藏状态的掩蔽生成机制,降低对最后一个预测词的依赖,缓解误差传播。
- 采用噪声感知生成方法,在预训练期间随机破坏目标序列,使模型能够学习在推理中检测并忽略错误预测。
- 引入逐跨度生成流程,训练模型连续预测语义完整的跨度,模仿人类写作模式。
- 使用多粒度目标采样,选择非相邻或碎片化的跨度作为目标,增强编码器-解码器对齐并减少对先前预测的依赖。
- 采用基于 Transformer 的多流注意力架构,在预训练期间联合优化逐词和逐跨度生成流程。
- 在微调阶段同样应用掩蔽和噪声感知机制,以保持预训练与推理之间的一致性。
实验结果
研究问题
- RQ1一种避免依赖最后一个预测标记的掩蔽生成机制,是否能减少序列到序列生成中的暴露偏差?
- RQ2在预训练期间对目标序列进行破坏的噪声感知训练,是否能提升推理阶段对预测错误的鲁棒性?
- RQ3通过建模类似人类的文本生成方式(即以连贯短语为单位生成),逐跨度生成任务是否能提升生成质量?
- RQ4多粒度目标采样是否能增强长文本生成中编码器与解码器表示之间的相关性?
- RQ5结合掩蔽生成、噪声感知和逐跨度生成的多流预训练框架,是否能在更小模型和更少预训练数据下实现最先进性能?
主要发现
- ERNIE-GEN 在摘要生成任务(Gigaword 和 CNN/DailyMail)上达到最先进性能,CNN/DailyMail 上的 ROUGE-1/ROUGE-2/ROUGE-L 分数分别为 39.49/17.66/36.96,Gigaword 上为 32.57/14.68/30.60。
- 在问题生成任务(SQuAD)上,ERNIE-GEN 达到 23.34 BLEU-4、25.54 MTR 和 51.30 ROUGE-L,优于先前方法。
- 在对话回复生成任务(Persona-Chat)上,该模型实现最先进性能,展现出强大的零样本和少样本泛化能力。
- 消融实验证实,噪声感知生成方法和逐跨度生成任务均显著提升性能,完整模型相比变体最高提升达 1.5 ROUGE 点。
- 使用噪声感知生成进行微调可提升所有任务的性能,最优表现出现在噪声率 ρf = 0.15 时,表明具备有效的错误容忍能力。
- 模型注意力分析显示,在微调阶段对被噪声干扰的标记关注增强,且随着噪声率增加注意力权重降低,证实了有效错误检测与抑制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。