[论文解读] Entity-centered Cross-document Relation Extraction
本文提出了 ECRIM,一种基于实体的文档上下文过滤器和用于跨文档关系抽取的跨路径实体关系注意力模型,在 CodRED 的测试集上达到最新研究水平(F1 62.48,AUC 60.67)。
Relation Extraction (RE) is a fundamental task of information extraction, which has attracted a large amount of research attention. Previous studies focus on extracting the relations within a sentence or document, while currently researchers begin to explore cross-document RE. However, current cross-document RE methods directly utilize text snippets surrounding target entities in multiple given documents, which brings considerable noisy and non-relevant sentences. Moreover, they utilize all the text paths in a document bag in a coarse-grained way, without considering the connections between these text paths.In this paper, we aim to address both of these shortages and push the state-of-the-art for cross-document RE. First, we focus on input construction for our RE model and propose an entity-based document-context filter to retain useful information in the given documents by using the bridge entities in the text paths. Second, we propose a cross-document RE model based on cross-path entity relation attention, which allow the entity relations across text paths to interact with each other. We compare our cross-document RE method with the state-of-the-art methods in the dataset CodRED. Our method outperforms them by at least 10% in F1, thus demonstrating its effectiveness.
研究动机与目标
- 通过解决现有方法中的噪声和路径连接问题,推动改进的跨文档关系抽取。
- 提出一种强调桥接实体的输入构造方法,以保留有用的上下文。
- 开发跨路径注意机制,以捕捉跨文本路径的相互依赖,从而在文本路径之间进行更好的推理。
提出的方法
- 基于实体的文档上下文过滤器,使用桥接实体分数和语义句子排序步骤选择显著句子。
- 基于 BERT 的编码器以获得标记和实体表示。
- 使用一个包级关系矩阵和 Transformer 的跨路径实体关系注意力,以建模关系在不同文本路径之间的依赖关系。
- 一个分类器聚合路径级表示以生成包级关系预测。
- 多标签全局阈值损失,用于处理具有多种有效关系的包。
实验结果
研究问题
- RQ1如何利用桥接实体对跨文档输入进行筛选和排序以用于 RE?
- RQ2在文本路径之间建模关系的跨路径依赖是否能提升跨文档 RE 的性能?
- RQ3输入构造和跨路径注意在 CodRED 上的影响是什么?
- RQ4针对多标签 CodRE 的包级阈值训练目标是否有效?
主要发现
| F1 | AUC | P@500 | P@1000 | |
|---|---|---|---|---|
| Pipeline (Yao et al. 2021) | 30.54 | 17.45 | 30.60 | 26.70 |
| End-to-end (Yao et al. 2021) | 61.12 | 60.91 | 78.89 | 60.17 |
| ECRIM (ours) | 61.12 | 60.91 | 78.89 | 60.17 |
- ECRIM 在 CodRED 的开发集和测试集上均优于基线(F1 约为 61.12–62.48,AUC 约为 60.91–60.67)。
- 通过输入构造模块引入桥接实体显著提升相较于基线输入策略的性能。
- 跨路径实体关系注意力通过实现跨不同文本路径的关系交互带来显著提升。
- 消融研究表明,移除输入构造、桥接实体、跨路径注意力或阈值损失都会降低性能。
- 模型对桥接实体和路径数的变化保持鲁棒,在介于中等水平的桥接信息和路径数量时取得最佳性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。