QUICK REVIEW

[论文解读] Pre-trained Language Model Representations for Language Generation

Sergey Edunov, Alexei Baevski|arXiv (Cornell University)|Mar 22, 2019

Topic Modeling参考文献 30被引用 24

一句话总结

本文提出将预训练语言模型表示集成到序列到序列模型中，用于神经机器翻译和生成式摘要任务。通过向编码器输入 ELMo 风格的上下文嵌入，该模型在低资源设置下 BLEU 分数最高提升 5.3，CNN-DailyMail 数据集上的 ROUGE 分数提升 1.49 分，且推理时间仅增加 14%。

ABSTRACT

Pre-trained language model representations have been successful in a wide range of language understanding tasks. In this paper, we examine different strategies to integrate pre-trained representations into sequence to sequence models and apply it to neural machine translation and abstractive summarization. We find that pre-trained representations are most effective when added to the encoder network which slows inference by only 14%. Our experiments in machine translation show gains of up to 5.3 BLEU in a simulated resource-poor setup. While returns diminish with more labeled data, we still observe improvements when millions of sentence-pairs are available. Finally, on abstractive summarization we achieve a new state of the art on the full text version of CNN/DailyMail.

研究动机与目标

研究预训练语言模型表示如何提升序列到序列模型在文本生成任务中的表现。
评估不同集成策略——ELMo 风格增强与微调——在编码器和解码器网络中的效果。
评估在低资源与高资源设置下，机器翻译与生成式摘要任务中的性能提升。
分析在添加预训练表示时，性能提升与推理效率之间的权衡。

提出的方法

作者使用 ELMo 风格的上下文嵌入，通过加权组合预训练语言模型的多层表示，并对每个隐藏层应用层归一化。
他们实验了将这些嵌入注入编码器（src-elmo）或解码器（tgt-elmo），也尝试在序列到序列训练过程中微调语言模型参数（src-ft，tgt-ft）。
预训练的语言模型在大规模单语语料上进行训练（例如，60 亿词的德语和 50 亿词的英语新闻语料），使用联合的 BPE 词汇表，共 37K 个词符类型。
在推理阶段，模型并行计算所有输入词元的语言模型表示，从而将延迟影响最小化，尽管训练时间有所增加。
该方法还包括在解码器中共享输入和输出嵌入（共享嵌入），以进一步提升性能，尤其在低数据场景下效果更明显。
实验在 WMT’18 英德和英土翻译任务以及 CNN-DailyMail 生成式摘要数据集上进行。

实验结果

研究问题

RQ1在序列到序列模型中，ELMo 风格输入注入与微调策略，哪种能带来最大的性能提升？
RQ2预训练表示在不同规模的标注训练数据下如何影响性能，特别是在低资源设置中？
RQ3将预训练表示注入编码器或解码器，哪种效果更好，原因是什么？
RQ4预训练表示对推理速度有何影响？是否可以最小化其影响而不损失性能？
RQ5预训练表示能否与其它架构改进（如共享嵌入）有效结合？

主要发现

表现最佳的策略是将 ELMo 风格的上下文嵌入注入编码器（src-elmo），在 16 万双语句对设置下 BLEU 提升 3.8 分，在 520 万句对设置下仍能实现超过 1 分的 BLEU 提升。
将 src-elmo 与共享输入输出嵌入结合（src-elmo+shdemb）在 16 万句对设置下实现新的最先进性能，BLEU 提升达 5.3 分。
微调语言模型（src-ft）也能提升性能，但训练速度显著降低（比基线慢 9.2 倍），且在部分设置下仅略优于 src-elmo。
在解码器中使用预训练表示（tgt-elmo 或 tgt-ft）带来的增益微乎其微或为负，表明其在解码阶段效果较差。
使用 src-elmo 时，推理时间仅增加 14%，得益于对输入词元并行计算语言模型表示。
在 CNN-DailyMail 生成式摘要任务中，src-elmo+shdemb 实现新的最先进性能，ROUGE-L 比基线提升 1.49 分。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。