[论文解读] A General Framework for Information Extraction using Dynamic Span Graphs
DyGIE 引入动态跨度图,以联合提取实体、关系和共指,在多个领域实现最先进的结果,并能良好处理重叠的跨度。
We introduce a general framework for several information extraction tasks that share span representations using dynamically constructed span graphs. The graphs are constructed by selecting the most confident entity spans and linking these nodes with confidence-weighted relation types and coreferences. The dynamic span graph allows coreference and relation type confidences to propagate through the graph to iteratively refine the span representations. This is unlike previous multi-task frameworks for information extraction in which the only interaction between tasks is in the shared first-layer LSTM. Our framework significantly outperforms the state-of-the-art on multiple information extraction tasks across multiple datasets reflecting different domains. We further observe that the span enumeration approach is good at detecting nested span entities, with significant F1 score improvement on the ACE dataset.
研究动机与目标
- 在共享跨度表示的任务之间推动联合信息抽取。
- 提出一个通用、领域无关的框架,通过动态图来细化跨度表示。
- 通过共指和关系链接实现上下文传播,以改进预测。
- 在多个数据集和领域展示出强劲的实证表现。
提出的方法
- 枚举所有候选跨度,最大长度限定,并计算初始跨度表示。
- 通过选取高置信度跨度作为节点并用置信度加权的共指和关系边将它们连成一个动态跨度图。
- 通过共指与关系层进行上下文传播,并进行迭代更新以细化跨度表示。
- 使用门控更新在每一步传播中结合旧信息与新信息。
- 基于经细化的跨度表示预测实体类型和关系类型,并与共指监督共同训练。
- 以实体、关系和共指的对数似然损失的加权和进行训练。
实验结果
研究问题
- RQ1相较于传统的共享编码器多任务模型,动态跨度图方法是否能提升跨任务的信息抽取(实体、关系、共指)?
- RQ2通过共指和关系链接进行上下文传播是否能提升跨度表示及在不同领域的下游预测?
- RQ3在检测重叠跨度以及缺乏外部句法工具的领域中,该框架是否有效?
- RQ4共指传播与关系传播对实体和关系提取的影响是什么?
主要发现
| 数据集 | 系统 | 实体 F1 | 关系 F1 |
|---|---|---|---|
| ACE04 | Bekoulis et al. (2018) | 81.6 | 47.5 |
| ACE04 | Miwa and Bansal (2016) | 81.8 | 48.4 |
| ACE04 | DyGIE | 87.4 | 59.7 |
| ACE05 | Miwa and Bansal (2016) | 83.4 | 55.6 |
| ACE05 | Zhang et al. (2017) | 83.6 | 57.5 |
| ACE05 | Sanh et al. (2019) | 87.5 | 62.7 |
| ACE05 | DyGIE | 88.4 | 63.2 |
| SciERC | Luan et al. (2018a) | 64.2 | 39.3 |
| SciERC | DyGIE | 65.2 | 41.6 |
| WLPC | Kulkarni et al. (2018) | 78.0 | 54.9 |
| WLPC | DyGIE | 79.5 | 64.1 |
- 在 ACE04、ACE05、SciERC 和 Wet Lab Protocol Corpus 上实现联合实体与关系提取的最新水平。
- 相较于此前的方法,在 ACE04-O、ACE05-O 和 GENIA 上的重叠实体提取取得显著提升。
- 在 ACE04 和 ACE05 上,DyGIE 在 NER 上分别实现 7.1% 和 7.0% 的相对提升,在 RE 上分别实现 25.8% 和 13.7%。
- 在 SciERC 上,相较于先前模型,关系抽取提升 5.9%,NER 提升 1.9%。
- 在 WLPC 上,DyGIE 将关系抽取提升 16.8%,NER 提升 2.2%,且不使用金实体边界。
- 共指传播显著有助于代词消歧义和跨句上下文的实体类型预测,而关系传播则稳健提升关系抽取,尤其在含有大量实体的句子中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。