[论文解读] Graph Convolution over Pruned Dependency Trees Improves Relation Extraction
本论文将图卷积网络扩展到对依存结构进行编码以进行关系抽取,提出一种基于路径的剪枝策略,并在 TACRED 上达到最先进的结果,相比基于树的模型有显著的加速。通过 BiLSTM 的上下文化进一步提升性能,并展示了与序列模型的互补优势。
Dependency trees help relation extraction models capture long-range relations between words. However, existing dependency-based models either neglect crucial information (e.g., negation) by pruning the dependency trees too aggressively, or are computationally inefficient because it is difficult to parallelize over different tree structures. We propose an extension of graph convolutional networks that is tailored for relation extraction, which pools information over arbitrary dependency structures efficiently in parallel. To incorporate relevant information while maximally removing irrelevant content, we further apply a novel pruning strategy to the input trees by keeping words immediately around the shortest path between the two entities among which a relation might hold. The resulting model achieves state-of-the-art performance on the large-scale TACRED dataset, outperforming existing sequence and dependency-based neural models. We also show through detailed analysis that this model has complementary strengths to sequence models, and combining them further improves the state of the art.
研究动机与目标
- 通过利用依存树来激发并提升关系抽取,同时不损失诸如否定等关键信息。
- 开发一种基于 GCN 的架构,能够在任意依存结构上高效聚合信息。
- 引入基于路径的剪枝,以去除不相关的内容,同时保留路径外的有用信息。
- 通过在 GCN 处理前加入 BiLSTM 进行上下文化来增强鲁棒性。
- 在 TACRED 和 SemEval 上展示最先进的结果,并分析与序列模型的互补优势。
提出的方法
- 扩展图卷积网络以在含自环的依存图上工作,并进行归一化的消息传递。
- 用 GCN 层对句子进行编码以获得词表示,然后池化到句子维度,并与实体表示拼接用于分类。
- 通过在 GCN 之前将输入送入 BiLSTM,从而添加一个上下文化的 GCN(C-GCN)。
- 引入基于路径的剪枝:保留距离实体之间的最短依存路径的距离不超过 K 的节点,K 的取值为 {0,1,2,∞},并且发现 K=1 取得最佳性能。
- 可选择通过概率插值将 GCN/C-GCN 与强序列模型(PA-LSTM)结合,以提高性能。
- 在 TACRED 和 SemEval 数据集上与基于依赖的模型和序列模型进行比较,给出 F1、精确度和召回率。
实验结果
研究问题
- RQ1基于依存树的图卷积方法能否在关系提取上超越传统的基于依赖的神经模型?
- RQ2通过剪枝引入路径外信息是否能在不牺牲关键信息的前提下提高鲁棒性和准确性?
- RQ3用 BiLSTM 对 GCN 进行上下文化是否能提升关系提取的性能以及对解析错误的鲁棒性?
- RQ4基于依赖的模型是否与基于序列的模型互补,且它们的组合是否能达到最先进的结果?
主要发现
| 模型 | P | R | F1 |
|---|---|---|---|
| LR | 73.5 | 49.9 | 59.4 |
| SDP-LSTM | 66.3 | 52.7 | 58.7 |
| Tree-LSTM | 66.0 | 59.2 | 62.4 |
| PA-LSTM | 65.7 | 64.5 | 65.1 |
| GCN | 69.8 | 59.0 | 64.0 |
| C-GCN | 69.9 | 63.3 | 66.4 |
| GCN + PA-LSTM | 71.7 | 63.0 | 67.1 |
| C-GCN + PA-LSTM | 71.3 | 65.4 | 68.2 |
- 基于 GCN 的关系提取在 TACRED 和 SemEval 上超越了以往的基于依赖的神经模型。
- 上下文化的 GCN(C-GCN)在 TACRED 上比 GCN 进一步提升,达到最先进的结果。
- 以 K=1 的路径中心剪枝提供了最佳平衡,通过包含有信息的路径外内容同时移除噪声来提升性能。
- 将 GCN/C-GCN 与 PA-LSTM 结合比任一模型单独使用获得更高的 F1,表明互补优势。
- 在 TACRED 上,GCN 和 C-GCN 相较基线提升 F1,C-GCN 达到 66.4(单模型)和 68.2(与 PA-LSTM 插值时)。
- 在 SemEval 上,C-GCN 在 with-m 模型达到 84.8 F1,在 mask-m 模型达到 76.5 F1,超过了若干基于依赖的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。