Skip to main content
QUICK REVIEW

[论文解读] Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction

Yi Luan, Luheng He|arXiv (Cornell University)|Aug 29, 2018
Topic Modeling参考文献 36被引用 44
一句话总结

本文介绍了一个统一的多任务模型(SciIE),用于识别科学实体、关系和指代,以及一个 SciERC 数据集,并展示在信息抽取和知识图谱构建方面的改进,且无需手工设计特征。

ABSTRACT

We introduce a multi-task setup of identifying and classifying entities, relations, and coreference clusters in scientific articles. We create SciERC, a dataset that includes annotations for all three tasks and develop a unified framework called Scientific Information Extractor (SciIE) for with shared span representations. The multi-task setup reduces cascading errors between tasks and leverages cross-sentence relations through coreference links. Experiments show that our multi-task model outperforms previous models in scientific information extraction without using any domain-specific features. We further show that the framework supports construction of a scientific knowledge graph, which we use to analyze information in scientific literature.

研究动机与目标

  • 通过联合建模实体、关系和指代来推动科学信息抽取,以处理跨句子信息并减少级联错误,从而推进研究。
  • 创建 SciERC 数据集,在科学摘要中对实体、关系和指代进行注释。
  • 开发一个统一的端到端框架,使跨任务共享片段表示,以改善片段边界检测和关系覆盖。
  • 证明多任务模型在 SciERC 和 SemEval 数据集上优于现有最先进基线。
  • 展示如何将提取的术语和关系整合到用于文献分析的大规模科学知识图谱中。

提出的方法

  • 将三项任务(实体识别、关系抽取、指代消解)视为在共享片段表示上的多项式分类。
  • 枚举并对候选片段进行评分,最大长度限制内,允许重叠和跨句子关系。
  • 使用统一的打分结构,Phi_E、Phi_R、Phi_C由共享的片段表示 g_i 通过前馈网络计算;关系和指代使用成对的片段特征,包括 g_i、g_j 以及 g_i ∘ g_j。

实验结果

研究问题

  • RQ1一个单一的多任务模型能否在科学文本中同时识别实体、关系和指代,且优于特定任务的基线?
  • RQ2通过指代传播获得的跨句子信息是否提升了科学文献中的关系覆盖和实体边界检测?
  • RQ3基于片段的端到端方法在没有手工特征的情况下,是否能有效处理科学信息抽取中的重叠片段和跨句子关系?
  • RQ4联合学习对下游科学知识图谱的构建和质量有何影响?
  • RQ5从指代传播中可以获得哪些关于提高知识图谱密度和消歧的见解?

主要发现

  • SciIE 在 SciERC 的实体识别、关系抽取和指代消解方面超越基线。
  • 实体识别:SciIE 在开发集得分 68.1 F1,在测试集得分 64.2 F1,明显超过 LSTM+CRF 和 E2E Rel 基线。
  • 关系抽取:SciIE 在开发集达到 58.0 F1,在测试集达到 48.2 F1,显著优于 E2E Rel 基线。
  • 指代消解:SciIE 在开发集达到 58.0 F1,在测试集达到 48.2 F1,优于 E2E Coref。
  • 消融实验表明多任务学习提升了各任务的性能;联合训练在开发集取得的增益如实体 65.7 vs 68.1、关系 37.9 vs 39.5、指代消解 55.3 vs 58.0。
  • 在 SemEval 2017 上,SciIE 超越了之前基于特征的方法(片段识别 F1 58.6;关键词抽取 F1 46.0;关系抽取 F1 27.8;综合 F1 44.7)。
  • 从 11 万条摘要构建知识图谱的结果表明,指代传播提高了在评估的人类标注三元组中的图质量和召回。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。