Skip to main content
QUICK REVIEW

[论文解读] Generating Wikipedia by Summarizing Long Sequences

Peter J. Liu, Mohammad Saleh|arXiv (Cornell University)|Jan 30, 2018
Natural Language Processing Techniques参考文献 14被引用 74
一句话总结

本文将维基百科文章生成视为多文档抽象式摘要任务,提出一种解码器仅 Transformer 变体,能够处理非常长的输入序列,以生成连贯的 Wikipedia 文本。

ABSTRACT

We show that generating English Wikipedia articles can be approached as a multi- document summarization of source documents. We use extractive summarization to coarsely identify salient information and a neural abstractive model to generate the article. For the abstractive model, we introduce a decoder-only architecture that can scalably attend to very long sequences, much longer than typical encoder- decoder architectures used in sequence transduction. We show that this model can generate fluent, coherent multi-sentence paragraphs and even whole Wikipedia articles. When given reference documents, we show it can extract relevant factual information as reflected in perplexity, ROUGE scores and human evaluations.

研究动机与目标

  • 以多样的参考文本为来源,推动将生成维基百科文章视为多文档摘要任务。
  • 提出一个两阶段的抽取-抽象框架以处理非常长的输入。
  • 开发并评估处理长序列的解码器仅 Transformer 架构。
  • 证明抽象模型在给定参考文献的情况下能够生成流畅、连贯的 Wikipedia 风格文本。

提出的方法

  • 定义一个 WikiSum 数据集,将引文和网页搜索文档作为参考输入,Wikipedia 文本作为目标。
  • 使用抽取阶段通过 tf-idf、TextRank、SumBasic 以及一个 cheating extractor 来选择重要的输入文本。
  • 训练一个抽象阶段,处理非常长的输入(高达 11000 tokens)以生成多句 Wikipedia leads。
  • 提出一个解码器仅 Transformer 变体(T-D)及改进(T-DMCA),具备局部和记忆压缩注意力以处理长序列。
  • 引入一个具备可选混合专家(MoE)层的内存高效架构以扩展容量。
  • 使用困惑度和 ROUGE-L F1 进行评估,并辅以人工语言质量评估。

实验结果

研究问题

  • RQ1是否能将长输入的多文档输入有效摘要为 Wikipedia 风格文本,利用 abstractive 模型?
  • RQ2解码器仅 Transformer 在长序列摘要任务上是否优于编码-解码设置?
  • RQ3输入抽取质量如何影响多文档摘要生成的最终 abstractive 表现(用于 Wikipedia leads)?
  • RQ4哪些架构改造(局部与记忆压缩注意力、MoE)能够实现对极长序列的处理?
  • RQ5这种方法是否能够在给定参考文献的条件下生成流畅的 leads 和完整的文章?

主要发现

模型测试困惑度ROUGE-L
seq2seq-attention, L=5005.0495212.7
Transformer-ED, L=5002.4664534.2
Transformer-D, L=40002.2221633.6
Transformer-DMCA, no MoE-layer, L=110002.0515936.2
Transformer-DMCA, MoE-128, L=110001.9287137.9
Transformer-DMCA, MoE-256, L=75001.9032538.8
  • 两阶段的抽取-抽象框架能够生成基于多文档参考的流畅、连贯的 Wikipedia leads。
  • 智能抽取(tf-idf)显著提升 abstractive 表现,相较于天真抽取基线。
  • 解码器仅 Transformer 变体(T-D、T-DMCA)在长输入上优于 seq2seq-att 和标准 Transformer-ED,困惑度低至 1.90,ROUGE-L 高达 38.8(在组合数据上)。
  • 内存高效的注意力(局部和记忆压缩)使处理高达 11,000 token 的序列成为可能,提升建模容量和性能。
  • 当将模型扩展至长输入时,混合专家(MoE)进一步提升困惑度和 ROUGE 表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。