[论文解读] DocRED: A Large-Scale Document-Level Relation Extraction Dataset
DocRED 引入来自维基百科和维基数据的大规模、人工标注的文档级关系抽取数据集,以及一个远程监督数据集,以推动文档级关系抽取在超越句子级方法的方向发展。它显示现有模型在文档尺度推理上的困难,并为监督与弱监督设置提供基准。
Multiple entities in a document generally exhibit complex inter-sentence relations, and cannot be well handled by existing relation extraction (RE) methods that typically focus on extracting intra-sentence relations for single entity pairs. In order to accelerate the research on document-level RE, we introduce DocRED, a new dataset constructed from Wikipedia and Wikidata with three features: (1) DocRED annotates both named entities and relations, and is the largest human-annotated dataset for document-level RE from plain text; (2) DocRED requires reading multiple sentences in a document to extract entities and infer their relations by synthesizing all information of the document; (3) along with the human-annotated data, we also offer large-scale distantly supervised data, which enables DocRED to be adopted for both supervised and weakly supervised scenarios. In order to verify the challenges of document-level RE, we implement recent state-of-the-art methods for RE and conduct a thorough evaluation of these methods on DocRED. Empirical results show that DocRED is challenging for existing RE methods, which indicates that document-level RE remains an open problem and requires further efforts. Based on the detailed analysis on the experiments, we discuss multiple promising directions for future research.
研究动机与目标
- 通过提供一个来自维基百科/Wikidata 的大规模人工标注数据集,激励并使文档级关系抽取成为可能。
- 展示对于最先进的模型,文档级关系抽取比句子级关系抽取显著更困难。
- 提供监督数据和远程监督数据,以支持多样的学习范式。
- 分析推理类型、支持证据和模型局限性,以指导未来研究。
- 提供基准和基线,推动开发更强的文档级关系抽取方法。
提出的方法
- 从英文维基百科和维基数据构建 DocRED,采用四阶段的人类标注:远程监督的候选生成、命名实体和指代标注、实体链接,以及带有支持证据的关系标注。
- 提供覆盖多领域的 96 种关系类型,以及跨 5,053 篇文档的 132,375 条关系事实。
- 通过将维基百科与维基数据对齐并使用在人工标注数据上微调的 BERT 对实体进行再识别,创建一个大规模的远程监督数据集。
- 将现有的句子级关系提取模型改造为文档级关系提取,并在监督与弱监督设置下进行评估。
- 使用 F1 和 AUC 评估模型性能,包括 Ign F1 / Ign AUC 以减轻训练/开发/测试重叠偏差。
- 提供神经网络与特征消融分析,以理解实体类型、指代关系和距离特征的影响。
实验结果
研究问题
- RQ1在一个大规模、多样且人工标注的数据集上评估时,文档级关系抽取在难度上与句子级关系抽取有何不同?
- RQ2现有的关系抽取模型是否可以有效地适应文档级任务,以及它们的局限性是什么?
- RQ3远程监督数据对文档级关系抽取的性能和可靠性有何影响?
- RQ4提取文档级关系需要哪些类型的推理,以及如何设计模型来处理它们?
- RQ5模型在预测提取关系的支持证据方面有多好?
主要发现
| 模型 | 开发集 Ign F1 | 开发集 Ign AUC | 开发集 F1 | 开发集 AUC | 测试集 Ign F1 | 测试集 Ign AUC | 测试集 F1 | 测试集 AUC |
|---|---|---|---|---|---|---|---|---|
| CNN | 41.58 | 36.85 | 43.45 | 39.39 | 40.33 | 36.24 | 42.26 | 38.91 |
| LSTM | 48.44 | 46.62 | 50.68 | 49.48 | 47.71 | 46.27 | 50.07 | 49.25 |
| BiLSTM | 48.87 | 47.61 | 50.94 | 50.26 | 48.78 | 47.61 | 51.06 | 50.43 |
| Context-Aware | 48.94 | 47.22 | 51.09 | 50.17 | 48.40 | 46.54 | 50.70 | 49.64 |
| CNN (W) | 33.24 | 23.17 | 42.76 | 37.99 | 32.33 | 21.83 | 42.00 | 36.84 |
| LSTM (W) | 39.37 | 22.39 | 49.92 | 42.79 | 38.27 | 21.74 | 48.88 | 41.35 |
| BiLSTM (W) | 41.44 | 23.21 | 51.72 | 44.44 | 39.15 | 22.14 | 49.80 | 42.87 |
| Context-Aware (W) | 40.47 | 22.56 | 51.39 | 43.00 | 39.16 | 21.58 | 50.12 | 41.51 |
- DocRED 比以往的关系抽取数据集更大,并且在相当比例的关系中需要多句推理。
- 大多数关系(61.1%)需要超出简单模式匹配的推理,常需要逻辑推理、指代推理和常识推理。
- 人工表现显著超越当前模型,表明文档级关系抽取仍有很大提升空间。
- 上下文和长距离编码(基于 BiLSTM 的架构)通常优于 CNN,但没有一个模型明显占优,凸显需要更好的跨句子推理。
- 远程监督有助于扩展数据规模,但引入标签噪声;在人工标注数据上训练的模型通常优于在远程监督数据上训练的模型。
- 用神经预测模型预测关系的支持证据是可行的,并提升了可解释性,尽管仍然是具有挑战性的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。