[论文解读] Sample Efficient Text Summarization Using a Single Pre-Trained Transformer
该论文显示, 将预训练的解码器型 Transformer LM 用于摘要任务, 作为语言模型来处理, 能获得较强的样本效率, 并在相比编码-解码基线参数更少的情况下也具有竞争力的结果。
Language model (LM) pre-training has resulted in impressive performance and sample efficiency on a variety of language understanding tasks. However, it remains unclear how to best use pre-trained LMs for generation tasks such as abstractive summarization, particularly to enhance sample efficiency. In these sequence-to-sequence settings, prior work has experimented with loading pre-trained weights into the encoder and/or decoder networks, but used non-pre-trained encoder-decoder attention weights. We instead use a pre-trained decoder-only network, where the same Transformer LM both encodes the source and generates the summary. This ensures that all parameters in the network, including those governing attention over source states, have been pre-trained before the fine-tuning step. Experiments on the CNN/Daily Mail dataset show that our pre-trained Transformer LM substantially improves over pre-trained Transformer encoder-decoder networks in limited-data settings. For instance, it achieves 13.1 ROUGE-2 using only 1% of the training data (~3000 examples), while pre-trained encoder-decoder models score 2.3 ROUGE-2.
研究动机与目标
- 展示如何使用预训练语言模型进行抽象摘要,并提高样本效率。
- 研究仅解码器的 Transformer LM 是否能够在仅使用预训练权重的情况下对源文本进行编码并生成摘要。
- 与具有不同预训练配置的编码-解码架构进行比较。
- 评估预训练对样本效率和抽象质量的影响。
提出的方法
- 在单向设定下,在大规模语料库(WikiLM)上预训练一个 Transformer 语言模型。
- 对解码器单独的 Transformer LM 进行微调,使其通过将文章及其摘要作为一个序列来完成摘要任务。
- 与对编码器、解码器或两者都进行预训练的编码-解码基线进行比较(保持编码-解码注意力未预训练)。
- 在 CNN/Daily Mail 数据集上使用 ROUGE 指标进行评估;通过在较小数据比例(1%、2%、5%、10%、20%、50%)下进行训练来报告样本效率。
- 推理阶段使用束搜索,束宽为 2。
实验结果
研究问题
- RQ1在没有非预训练的编码-解码注意力权重的情况下,预训练的解码器单独 Transformer LM 能否实现具有竞争力的抽象摘要?
- RQ2对所有参数进行预训练(不仅仅是编码器/解码器部分)是否在低数据情境下带来更好的样本效率?
- RQ3就 ROUGE 分数以及抽象性与复制行为而言,解码器单独预训练模型与具有不同预训练配置的编码-解码架构相比如何?
主要发现
| 模型 | R1 | R2 | RL |
|---|---|---|---|
| Celikyilmaz et al. (2018) | 41.69 | 19.47 | 37.92 |
| CopyTransformer (4-layer) | 39.25 | 17.54 | 36.45 |
| GPT-2 (48-layer, zero-shot) | 29.34 | 0 8.27 | 26.58 |
| BidirEncoder-Decoder (4-layer) | 37.74 | 16.27 | 34.76 |
| Encoder-Decoder (12-layer) | 36.72 | 15.22 | 33.84 |
| Transformer LM (12-layer) | 37.72 | 16.14 | 34.62 |
- 预训练在完整数据上将 ROUGE 分数提高了约 2 点。
- 解码器单独预训练在结果上优于仅编码器或编码-解码预训练的设置;解码器单独预训练与完整的编码-解码模型具有竞争力。
- 仅用 1% 的训练数据时,解码器单独预训练的 Transformer LM 的 ROUGE-2 为 13.1,而预训练的编码-解码模型得分为 2.3。
- 该模型在抽象质量和更接近源监督的复制行为方面优于某些基线,尽管在数据非常少的设置下仍可能产生幻觉。
- 完全预训练的模型(所有参数)在有限数据情境下相较于部分预训练带来巨大收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。