[论文解读] Hierarchical Transformers for Multi-Document Summarization
该论文提出了一个层次化 Transformer 模型,通过局部与全局注意力对多个输入文档进行编码,必要时结合基于图的注意力,以在 WikiSum 上生成抽象式的多文档摘要,优于强基线。
In this paper, we develop a neural summarization model which can effectively process multiple input documents and distill Transformer architecture with the ability to encode documents in a hierarchical manner. We represent cross-document relationships via an attention mechanism which allows to share information as opposed to simply concatenating text spans and processing them as a flat sequence. Our model learns latent dependencies among textual units, but can also take advantage of explicit graph representations focusing on similarity or discourse relations. Empirical results on the WikiSum dataset demonstrate that the proposed architecture brings substantial improvements over several strong baselines.
研究动机与目标
- 开发能够从输入文档簇中生成抽象摘要的神经模型。
- 通过捕获跨文档关系来解决多文档输入中的平铺拼接问题。
- 利用层次编码和基于图的信号来提升 WikiSum 上的摘要质量。
- 评估文档排序和图知情注意力是否提高性能。
提出的方法
- 扩展 Transformer 以实现分层编码:局部段落级编码器加全局跨段落注意力。
- 引入多头段落池化以获得固定长度的段落表示。
- 引入跨段落注意力以在文档之间共享信息。
- 可选用图矩阵(词汇或话语基础)替代跨段落注意力头以为注意力提供信息。
- 使用基于 ROUGE-2 的监督信号,通过学习型段落排序模块对输入段落进行排序。
- 采用最大似然训练;解码时采用束搜索并加入长度惩罚。
- 与 Lead、LexRank、Flat Transformer 变体以及基于 Transformer 的基线(T-DMCA)进行比较。
- 在 WikiSum 上用 ROUGE-F1 指标进行评估,并进行人工评估(基于 QA 的评估和 Best-Worst 比较)。
实验结果
研究问题
- RQ1分层编码多文档是否能在抽象摘要方面优于平铺拼接?
- RQ2跨段落注意力和图知情注意力是否提升摘要质量?
- RQ3学习型段落排序是否比 tf-idf 相似度排序在性能上更优?
- RQ4在测试阶段输入更长对层次模型的影响如何?
- RQ5人工评估与自动评估在多文档抽象摘要中的一致性如何?
主要发现
| Model | ROUGE-1 | ROUGE-2 | ROUGE-L |
|---|---|---|---|
| Lead | 38.22 | 16.85 | 26.89 |
| LexRank | 36.12 | 11.67 | 22.52 |
| FT (600 tokens, no ranking) | 35.46 | 20.26 | 30.65 |
| FT (600 tokens) | 40.46 | 25.26 | 34.65 |
| FT (800 tokens) | 40.56 | 25.35 | 34.73 |
| FT (1,200 tokens) | 39.55 | 24.63 | 33.99 |
| T-DMCA (3000 tokens) | 40.77 | 25.60 | 34.90 |
| HT (1,600 tokens) | 40.82 | 25.99 | 35.08 |
| HT w/o PP | 40.21 | 24.54 | 34.71 |
| HT w/o MP | 39.90 | 24.34 | 34.61 |
| HT w/o GT | 39.01 | 22.97 | 33.76 |
- 层次化 Transformer (HT) 在 WikiSum 上在 ROUGE-1、ROUGE-2 和 ROUGE-L 上均超越强基线。
- 引入更长的输入(约 1,600 词)可提升 HT 的性能,且更长的测试输入(3,000 词)进一步提高结果。
- 基于图的信息注意力(话语图)使 HT 的 ROUGE-L 提升约 0.16 点。
- 学习型段落排序能改进输入选择,带来高于 tf-idf 的 ROUGE-L 召回率。
- 消融实验表明段落位置、多头池化以及全局 Transformer 层都对性能提升有贡献。
- 人工评估对 HT 相对于 Lead、FT 和 T-DMCA 更有利,且差异具有统计显著性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。