[论文解读] Generating Wikipedia by Summarizing Long Sequences
本文将维基百科文章生成视为多文档抽象式摘要任务,提出一种解码器仅 Transformer 变体,能够处理非常长的输入序列,以生成连贯的 Wikipedia 文本。
We show that generating English Wikipedia articles can be approached as a multi- document summarization of source documents. We use extractive summarization to coarsely identify salient information and a neural abstractive model to generate the article. For the abstractive model, we introduce a decoder-only architecture that can scalably attend to very long sequences, much longer than typical encoder- decoder architectures used in sequence transduction. We show that this model can generate fluent, coherent multi-sentence paragraphs and even whole Wikipedia articles. When given reference documents, we show it can extract relevant factual information as reflected in perplexity, ROUGE scores and human evaluations.
研究动机与目标
- 以多样的参考文本为来源,推动将生成维基百科文章视为多文档摘要任务。
- 提出一个两阶段的抽取-抽象框架以处理非常长的输入。
- 开发并评估处理长序列的解码器仅 Transformer 架构。
- 证明抽象模型在给定参考文献的情况下能够生成流畅、连贯的 Wikipedia 风格文本。
提出的方法
- 定义一个 WikiSum 数据集,将引文和网页搜索文档作为参考输入,Wikipedia 文本作为目标。
- 使用抽取阶段通过 tf-idf、TextRank、SumBasic 以及一个 cheating extractor 来选择重要的输入文本。
- 训练一个抽象阶段,处理非常长的输入(高达 11000 tokens)以生成多句 Wikipedia leads。
- 提出一个解码器仅 Transformer 变体(T-D)及改进(T-DMCA),具备局部和记忆压缩注意力以处理长序列。
- 引入一个具备可选混合专家(MoE)层的内存高效架构以扩展容量。
- 使用困惑度和 ROUGE-L F1 进行评估,并辅以人工语言质量评估。
实验结果
研究问题
- RQ1是否能将长输入的多文档输入有效摘要为 Wikipedia 风格文本,利用 abstractive 模型?
- RQ2解码器仅 Transformer 在长序列摘要任务上是否优于编码-解码设置?
- RQ3输入抽取质量如何影响多文档摘要生成的最终 abstractive 表现(用于 Wikipedia leads)?
- RQ4哪些架构改造(局部与记忆压缩注意力、MoE)能够实现对极长序列的处理?
- RQ5这种方法是否能够在给定参考文献的条件下生成流畅的 leads 和完整的文章?
主要发现
| 模型 | 测试困惑度 | ROUGE-L |
|---|---|---|
| seq2seq-attention, L=500 | 5.04952 | 12.7 |
| Transformer-ED, L=500 | 2.46645 | 34.2 |
| Transformer-D, L=4000 | 2.22216 | 33.6 |
| Transformer-DMCA, no MoE-layer, L=11000 | 2.05159 | 36.2 |
| Transformer-DMCA, MoE-128, L=11000 | 1.92871 | 37.9 |
| Transformer-DMCA, MoE-256, L=7500 | 1.90325 | 38.8 |
- 两阶段的抽取-抽象框架能够生成基于多文档参考的流畅、连贯的 Wikipedia leads。
- 智能抽取(tf-idf)显著提升 abstractive 表现,相较于天真抽取基线。
- 解码器仅 Transformer 变体(T-D、T-DMCA)在长输入上优于 seq2seq-att 和标准 Transformer-ED,困惑度低至 1.90,ROUGE-L 高达 38.8(在组合数据上)。
- 内存高效的注意力(局部和记忆压缩)使处理高达 11,000 token 的序列成为可能,提升建模容量和性能。
- 当将模型扩展至长输入时,混合专家(MoE)进一步提升困惑度和 ROUGE 表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。