QUICK REVIEW

[论文解读] Generating Wikipedia by Summarizing Long Sequences

Peter J. Liu, Mohammad Saleh|arXiv (Cornell University)|Jan 30, 2018

Natural Language Processing Techniques参考文献 14被引用 74

一句话总结

本文将维基百科文章生成视为多文档抽象式摘要任务，提出一种解码器仅 Transformer 变体，能够处理非常长的输入序列，以生成连贯的 Wikipedia 文本。

ABSTRACT

We show that generating English Wikipedia articles can be approached as a multi- document summarization of source documents. We use extractive summarization to coarsely identify salient information and a neural abstractive model to generate the article. For the abstractive model, we introduce a decoder-only architecture that can scalably attend to very long sequences, much longer than typical encoder- decoder architectures used in sequence transduction. We show that this model can generate fluent, coherent multi-sentence paragraphs and even whole Wikipedia articles. When given reference documents, we show it can extract relevant factual information as reflected in perplexity, ROUGE scores and human evaluations.

研究动机与目标

以多样的参考文本为来源，推动将生成维基百科文章视为多文档摘要任务。
提出一个两阶段的抽取-抽象框架以处理非常长的输入。
开发并评估处理长序列的解码器仅 Transformer 架构。
证明抽象模型在给定参考文献的情况下能够生成流畅、连贯的 Wikipedia 风格文本。

提出的方法

定义一个 WikiSum 数据集，将引文和网页搜索文档作为参考输入，Wikipedia 文本作为目标。
使用抽取阶段通过 tf-idf、TextRank、SumBasic 以及一个 cheating extractor 来选择重要的输入文本。
训练一个抽象阶段，处理非常长的输入（高达 11000 tokens）以生成多句 Wikipedia leads。
提出一个解码器仅 Transformer 变体（T-D）及改进（T-DMCA），具备局部和记忆压缩注意力以处理长序列。
引入一个具备可选混合专家（MoE）层的内存高效架构以扩展容量。
使用困惑度和 ROUGE-L F1 进行评估，并辅以人工语言质量评估。

实验结果

研究问题

RQ1是否能将长输入的多文档输入有效摘要为 Wikipedia 风格文本，利用 abstractive 模型？
RQ2解码器仅 Transformer 在长序列摘要任务上是否优于编码-解码设置？
RQ3输入抽取质量如何影响多文档摘要生成的最终 abstractive 表现（用于 Wikipedia leads）？
RQ4哪些架构改造（局部与记忆压缩注意力、MoE）能够实现对极长序列的处理？
RQ5这种方法是否能够在给定参考文献的条件下生成流畅的 leads 和完整的文章？

主要发现

模型	测试困惑度	ROUGE-L
seq2seq-attention, L=500	5.04952	12.7
Transformer-ED, L=500	2.46645	34.2
Transformer-D, L=4000	2.22216	33.6
Transformer-DMCA, no MoE-layer, L=11000	2.05159	36.2
Transformer-DMCA, MoE-128, L=11000	1.92871	37.9
Transformer-DMCA, MoE-256, L=7500	1.90325	38.8

两阶段的抽取-抽象框架能够生成基于多文档参考的流畅、连贯的 Wikipedia leads。
智能抽取（tf-idf）显著提升 abstractive 表现，相较于天真抽取基线。
解码器仅 Transformer 变体（T-D、T-DMCA）在长输入上优于 seq2seq-att 和标准 Transformer-ED，困惑度低至 1.90，ROUGE-L 高达 38.8（在组合数据上）。
内存高效的注意力（局部和记忆压缩）使处理高达 11,000 token 的序列成为可能，提升建模容量和性能。
当将模型扩展至长输入时，混合专家（MoE）进一步提升困惑度和 ROUGE 表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。