Skip to main content
QUICK REVIEW

[论文解读] MASS: Masked Sequence to Sequence Pre-training for Language Generation

Kaitao Song, Xu Tan|arXiv (Cornell University)|May 7, 2019
Natural Language Processing Techniques被引用 580
一句话总结

MASS 通过预测句子中被遮蔽的片段来对编码器–解码器模型进行预训练,提升零/低资源语言生成任务,如神经机器翻译、文本摘要和对话响应生成,并在无监督 NMT BLEU 分数上达到 state-of-the-art。

ABSTRACT

Pre-training and fine-tuning, e.g., BERT, have achieved great success in language understanding by transferring knowledge from rich-resource pre-training task to the low/zero-resource downstream tasks. Inspired by the success of BERT, we propose MAsked Sequence to Sequence pre-training (MASS) for the encoder-decoder based language generation tasks. MASS adopts the encoder-decoder framework to reconstruct a sentence fragment given the remaining part of the sentence: its encoder takes a sentence with randomly masked fragment (several consecutive tokens) as input, and its decoder tries to predict this masked fragment. In this way, MASS can jointly train the encoder and decoder to develop the capability of representation extraction and language modeling. By further fine-tuning on a variety of zero/low-resource language generation tasks, including neural machine translation, text summarization and conversational response generation (3 tasks and totally 8 datasets), MASS achieves significant improvements over the baselines without pre-training or with other pre-training methods. Specially, we achieve the state-of-the-art accuracy (37.5 in terms of BLEU score) on the unsupervised English-French translation, even beating the early attention-based supervised model.

研究动机与目标

  • 通过编码器–解码器架构的语言生成任务的预训练来提供动力。
  • 提出 MASS,通过重构被遮蔽的句子片段来联合预训练编码器和解码器。
  • 显示 MASS 在零/低资源的 NMT、文本摘要和对话响应生成上相对于基线的改进。
  • 证明 MASS 在多语言对上实现了无监督 NMT BLEU 分数的最先进水平。

提出的方法

  • 模型使用 Transformer 编码器–解码器架构。
  • 输入是一句话,其中一个连续片段被一个特殊符号遮蔽;解码器在编码器表示的条件下预测被遮蔽的片段。
  • 遮蔽长度 k 是一个超参数;MASS 将 MLM(BERT)和标准 LM(GPT)泛化为特例。
  • 编码器输入将 80% 的标记遮蔽为 [M],10% 随机标记,10% 保持不变,以平衡学习。
  • 在预训练期间,MASS 遮蔽编码器中的连续标记,并遮蔽在编码器中未遮蔽的解码器输入标记以鼓励解码器依赖表示。

实验结果

研究问题

  • RQ1MASS 是否能在无标签数据上联合预训练编码器和解码器,以促进语言生成任务?
  • RQ2遮蔽片段长度 k 如何影响预训练效果和下游任务性能?
  • RQ3在零/低资源设置下,MASS 是否优于现有的预训练方法(例如 BERT+LM、DAE、XLM)用于编码器–解码器生成任务?
  • RQ4MASS 是否在多种生成任务中有效,如 NMT、文本摘要和对话响应生成?

主要发现

方法设置en - frfr - enen - dede - enen - roro - en
Artetxe et al. (2017)2-layer RNN15.1315.566.8910.16--
Lample et al. (2017)3-layer RNN15.0514.319.7513.33--
Yang et al. (2018)4-layer Transformer16.9715.5810.8614.62--
Lample et al. (2018)4-layer Transformer25.1424.1817.1621.0021.1819.44
XLM (Lample & Conneau, 2019)6-layer Transformer33.4033.3027.0034.3033.3031.80
MASS6-layer Transformer37.5034.9028.3035.2035.2033.10
  • MASS 在六个翻译方向的无监督 NMT 上优于先前方法,MASS 6-layer Transformer 配置下的 en-fr BLEU 为 37.50,en-ro BLEU 为 35.20。
  • 在零/低资源 NMT 中,MASS 在所有研究的语言对上始终超过仅用双语数据训练的基线和之前的预训练方法。
  • 对于文本摘要,MASS 在多种数据规模下提高了 ROUGE 分数,相对于基线,在数据量仅为 10K 时也有显著提升。
  • 在对话响应生成任务中,MASS 在 10K 和 110K 数据设置下都比基线具有更低的困惑度。
  • 消融研究表明,遮蔽连续标记(相对于随机离散遮蔽)和提供遮蔽的解码器输入对 MASS 的有效性至关重要;MASS 在离散遮蔽和馈送变体上始终优于。
  • 在各任务中,MASS 在无监督 NMT 中达到最先进的性能,在英-法对上比以往最佳提升超过 4 BLEU 点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。