QUICK REVIEW

[论文解读] Long-Span Dependencies in Transformer-based Summarization Systems.

Potsawee Manakul, Mark Gales|arXiv (Cornell University)|May 8, 2021

Topic Modeling被引用 2

一句话总结

本文提出一种混合方法，结合局部自注意力机制与显式内容选择，以改进基于Transformer的摘要生成模型在长跨度依赖建模方面的表现。通过结合这两种技术，该方法在无需大规模GPU资源的情况下，在Spotify Podcast、arXiv和PubMed数据集上实现了SOTA的ROUGE分数。

ABSTRACT

Transformer-based models have achieved state-of-the-art results in a wide range of natural language processing (NLP) tasks including document summarization. Typically these systems are trained by fine-tuning a large pre-trained model to the target task. One issue with these transformer-based models is that they do not scale well in terms of memory and compute requirements as the input length grows. Thus, for long document summarization, it can be challenging to train or fine-tune these models. In this work, we exploit large pre-trained transformer-based models and address long-span dependencies in abstractive summarization using two methods: local self-attention; and explicit content selection. These approaches are compared on a range of network configurations. Experiments are carried out on standard long-span summarization tasks, including Spotify Podcast, arXiv, and PubMed datasets. We demonstrate that by combining these methods, we can achieve state-of-the-art results on all three tasks in the ROUGE scores. Moreover, without a large-scale GPU card, our approach can achieve comparable or better results than existing approaches.

研究动机与目标

解决基于Transformer的摘要生成系统在长跨度依赖建模方面的挑战。
克服标准Transformer在输入序列长度增加时面临的内存与计算资源可扩展性限制。
实现在不依赖大规模GPU硬件的前提下，对长文档进行大模型的有效微调。
提升在Spotify Podcast、arXiv和PubMed等长跨度数据集上的摘要生成性能。
证明结合局部注意力与内容选择的方法相较于现有方法具有更优表现。

提出的方法

应用局部自注意力机制，通过将注意力限制在局部上下文窗口而非完整序列长度，以降低计算复杂度。
实施显式内容选择，以在注意力计算前识别并优先处理长输入文档中的关键句子或短语。
在长文档摘要任务上，使用结合局部注意力与内容选择策略对大预训练Transformer模型进行微调。
以标准Transformer架构作为主干网络，通过修改注意力计算与输入处理方式，以高效处理长上下文。
在Spotify Podcast、arXiv和PubMed等标准长跨度摘要基准数据集上进行模型训练与评估。
在保持ROUGE指标性能的同时，优化模型的推理效率与内存使用。

实验结果

研究问题

RQ1局部自注意力是否能在保持性能的同时，有效降低长文档摘要任务中的计算成本？
RQ2显式内容选择在摘要生成中对长跨度依赖建模的改善程度如何？
RQ3局部注意力与内容选择的结合方式与标准Transformer微调相比，在长跨度摘要任务中表现如何？
RQ4所提出的方法是否能在无需大规模GPU基础设施的情况下实现SOTA结果？
RQ5所提方法对arXiv、PubMed和Spotify Podcast等多样化长文档数据集的ROUGE分数有何影响？

主要发现

所提方法在Spotify Podcast、arXiv和PubMed三个基准数据集上均实现了SOTA的ROUGE分数。
将局部自注意力与显式内容选择结合，其性能优于单独使用任一技术。
即使在无大规模GPU资源支持的情况下，该模型仍能实现与现有方法相当或更优的性能。
该方法有效缓解了标准Transformer在长输入下带来的内存与计算资源扩展问题。
消融实验证实，局部注意力与内容选择均对最终性能提升有显著贡献。
该方法在降低计算需求的同时保持了强大的摘要质量，具备实际部署的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。