[论文解读] Efficient Adaptation of Pretrained Transformers for Abstractive Summarization
本文在使用源嵌入和领域自适应训练的基础上,将预训练的 Transformer 语言模型改编用于抽象摘要,在两个数据集上实现了新的 ROUGE 状态-of-the-art,并在人类评价方面表现出色。
Large-scale learning of transformer language models has yielded improvements on a variety of natural language understanding tasks. Whether they can be effectively adapted for summarization, however, has been less explored, as the learned representations are less seamlessly integrated into existing neural text production architectures. In this work, we propose two solutions for efficiently adapting pretrained transformer language models as text summarizers: source embeddings and domain-adaptive training. We test these solutions on three abstractive summarization datasets, achieving new state of the art performance on two of them. Finally, we show that these improvements are achieved by producing more focused summaries with fewer superfluous and that performance improvements are more pronounced on more abstractive datasets.
研究动机与目标
- 动机与评估如何有效地将预训练的Transformer表示适应于抽象摘要。
- 提出两种适配策略——源嵌入和领域自适应训练(DAT)—以弥合领域差异与任务对齐。
- 在三个主要摘要数据集上评估该方法,并与强基线进行比较。
- 分析摘要长度和提取性如何影响 ROUGE 分数与人类评价。
提出的方法
- 将文章和摘要表示为带有分隔符和特殊结束标记的单一输入序列。
- 引入源嵌入以区分输入表示中的文章标记与摘要标记。
- 在端任务摘要训练之前应用领域自适应训练以使模型对新闻稿语言对齐。
- 将基于GPT的Transformer微调为摘要器,并进行端任务训练以最大化目标摘要的条件似然。
- 可选地消融源嵌入以形成 Transformer-LM 进行比较。
- 生成时使用束搜索,束宽为3,并使用ROUGE指标进行评估。
实验结果
研究问题
- RQ1在从大规模语言模型初始化时,预训练的Transformer语言模型是否可以有效改造为抽象摘要器?
- RQ2源嵌入和领域自适应训练是否在跨数据集提升抽象摘要质量?
- RQ3在基于Transformer的摘要器中,ROUGE分数与人类评价及摘要长度之间的关系如何?
- RQ4尽管为抽象设计,当前的最先进摘要是否在很大程度上仍然是提取式?
主要发现
| Model | R-1 | R-2 | R-L | Length |
|---|---|---|---|---|
| PGen | 36.44 | 15.66 | 33.42 | 53.69 |
| PGen+Coverage | 39.53 | 17.28 | 36.38 | 59.75 |
| RougeSal + Ent RL | 40.43 | 18.00 | 37.10 | - |
| Bottom-Up Summ | 41.22 | 18.68 | 38.34 | 55.25 |
| CopyTransformer | 40.96 | 18.38 | 38.16 | - |
| rnn-ext + RL | 41.47 | 18.72 | 37.76 | 77.44 |
| DCA | 41.67 | 19.47 | 37.92 | 51.01 |
| Transformer-LM | 38.67 | 17.47 | 35.79 | 43.40 |
| Transformer-SM | 37.96 | 17.36 | 35.12 | 42.42 |
- 在两组数据集上,使用源嵌入和领域自适应训练训练的基于Transformer的摘要器实现了 ROUGE-L 的最先进水平。
- 在人类评估中,Transformer-SM 在非冗余、连贯性、聚焦与总体质量等方面优于部分强基线。
- Transformer-SM 倾向于生成更短更简练的摘要,同时在 ROUGE-L 的召回率方面与较长基线相当,表明更高的效率。
- ROUGE 分数,特别是 ROUGE-L,对摘要长度敏感,当偏好更长的摘要时可能显得乐观。
- 在 CNN/Daily Mail 数据集上,Transformer-SM 的 ROUGE 相较于某些基线略逊,但在人类评价中在质量方面被偏好。
- 在 XSum 数据集上,Transformer-SM 超越基线并达到或超过 Transformer-LM,暗示两种适配在高度抽象摘要中的潜在收益。
- 在 Newsroom 数据集上,Transformer-SM 在 ROUGE-1、ROUGE-2 和 ROUGE-L 上超过先前的最佳模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。