[论文解读] Heterogeneous Graph Neural Networks for Extractive Document Summarization
本文提出 HeterSUMGraph,一种异构图神经网络,将单词节点作为句子节点之间的中介来建模跨句子关系以用于抽取式摘要,并自然扩展到多文档情景,使用文档节点。
As a crucial step in extractive document summarization, learning cross-sentence relations has been explored by a plethora of approaches. An intuitive way is to put them in the graph-based neural network, which has a more complex structure for capturing inter-sentence relationships. In this paper, we present a heterogeneous graph-based neural network for extractive summarization (HeterSumGraph), which contains semantic nodes of different granularity levels apart from sentences. These additional nodes act as the intermediary between sentences and enrich the cross-sentence relations. Besides, our graph structure is flexible in natural extension from a single-document setting to multi-document via introducing document nodes. To our knowledge, we are the first one to introduce different types of nodes into graph-based neural networks for extractive document summarization and perform a comprehensive qualitative analysis to investigate their benefits. The code will be released on Github
研究动机与目标
- 为抽取式摘要超越序列编码器,动机化建模跨句子关系。
- 引入一个异构的词-句子图,通过中介词节点来丰富句子之间的互动。
- 展示通过文档节点将单文档摘要扩展到多文档摘要的可扩展性。
- 在 CNN/DailyMail、NYT50 和 Multi-News 数据集上与非 BERT 基线进行对比评估。
- 提供消融研究和定性分析,以理解异构图设计的收益。
提出的方法
- 构建一个含有词节点和句子节点的异构图,通过词-句边连接,边权重由 TF-IDF 派生特征决定。
- 使用 CNNs 和 BiLSTMs 初始化句子表示,以捕捉局部和全局句子特征。
- 通过带边特征和残差连接的图注意力网络(GAT)更新节点表示;执行迭代的词↔句子消息传递(8-head GAT,每步后接前馈网络)。
- 通过边嵌入将边权重 e_{ij} 融入 GAT;使用多头注意力和位置式前馈变换。
- 对于多文档设置,加入文档节点(HeterDocSUMGraph),连接到词节点并聚合形成文档表示;将句子和文档特征拼接以进行最终打分。
- 以句子标注的交叉熵进行训练(摘要选择),解码时应用三元组阻塞以减少冗余。
实验结果
研究问题
- RQ1相比同质或全连接的句子图,异质的词–句子图是否可以改善抽取式摘要中的跨句关系建模?
- RQ2在异构图中引入文档节点是否能够有效捕捉多文档摘要的跨文档关系?
- RQ3消融研究(边特征、单词更新、句子初始化、残差连接)如何影响在标准基准上的性能?
- RQ4该模型在 CNN/DailyMail 和 NYT50 上是否与非 BERT 基线竞争力,以及三元组阻塞是否带来额外增益?
主要发现
| 模型 | R-1 | R-2 | R-L |
|---|---|---|---|
| Lead-3 See et al. (2017) | 40.34 | 17.70 | 36.57 |
| Oracle Liu and Lapata (2019b) | 52.59 | 31.24 | 48.87 |
| REFRESH Narayan et al. (2018) | 40.00 | 18.20 | 36.60 |
| LATENT Zhang et al. (2018) | 41.05 | 18.77 | 37.54 |
| BanditSum Dong et al. (2018) | 41.50 | 18.70 | 37.60 |
| NeuSUM Zhou et al. (2018) | 41.59 | 19.01 | 37.98 |
| JECS Xu and Durrett (2019) | 41.70 | 18.50 | 37.90 |
| LSTM+PN Zhong et al. (2019a) | 41.85 | 18.93 | 38.13 |
| HER w/o Policy Luo et al. (2019) | 41.70 | 18.30 | 37.10 |
| HER w Policy Luo et al. (2019) | 42.30 | 18.90 | 37.60 |
| Ext-BiLSTM | 41.59 | 19.03 | 38.04 |
| Ext-Transformer | 41.33 | 18.83 | 37.65 |
| HeterSUMGraph (HSG) | 42.31 | 19.51 | 38.74 |
| HeterSUMGraph + Tri-Blocking | 42.95 | 19.76 | 39.23 |
- 在 CNN/DailyMail 上,HeterSUMGraph 相较 Ext-BiLSTM 和 Ext-Transformer 基线取得显著优势,HeterSUMGraph 达到 42.31 的 R-1、19.51 的 R-2、38.74 的 R-L;应用三元组阻塞后达到 42.95 R-1、19.76 R-2、39.23 R-L。
- 在 NYT50 上,HeterSUMGraph 相较不使用 BERT 的 BiLSTM 和 Transformer 基线有所提升,(HSG) 46.89 R-1, 26.26 R-2, 42.58 R-L;(HSG + Tri-Blocking) 46.57 R-1, 25.94 R-2, 42.25 R-L。
- 在多文档摘要(Multi-News)中,HeterDocSUMGraph 超越先前的非 BERT 模型,HDSG(46.05 R-1, 16.35 R-2, 42.08 R-L)和 HDSG + Tri-Blocking(45.55 R-1, 15.78 R-2, 41.29 R-L)。
- 消融研究表明,去除低 TF-IDF 的词过滤、边特征、残差或句子/词更新通常会下降性能,突显异构图设计与迭代消息传递的重要性。
- 定性分析表明,词节点的度数与摘要效用相关,随着源文档数量增加,文档节点的引入收益也提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。