Skip to main content
QUICK REVIEW

[论文解读] Construction of the Literature Graph in Semantic Scholar

Waleed Ammar, Dirk Groeneveld|arXiv (Cornell University)|May 6, 2018
Topic Modeling参考文献 21被引用 48
一句话总结

论文描述了一个部署的、可扩展的系统,通过 NLP 方法从科学论文中提取并连接元数据、实体和提及,建立异构文献图(超过280M 个节点),实现高级查询和发现。

ABSTRACT

We describe a deployed scalable system for organizing published scientific literature into a heterogeneous graph to facilitate algorithmic manipulation and discovery. The resulting literature graph consists of more than 280M nodes, representing papers, authors, entities and various interactions between them (e.g., authorships, citations, entity mentions). We reduce literature graph construction into familiar NLP tasks (e.g., entity extraction and linking), point out research challenges due to differences from standard formulations of these tasks, and report empirical results for each task. The methods described in this paper are used to enable semantic features in www.semanticscholar.org

研究动机与目标

  • 通过将论文、作者、实体与关系组织成一个统一图谱,来激发科学文献中的算法发现。
  • 展示一个可扩展的生产系统,用于从多样来源如出版商和预印本填充文献图。
  • 描述适用于学术领域的元数据提取、实体提取/链接等 NLP 任务并给出经验结果。
  • 识别挑战(作者消歧义、知识库覆盖有限、图像/图表提取)并概述未来工作。

提出的方法

  • 将文献表示为有向属性图,节点包括论文、作者、实体、提及,边包括引用、作者关系、实体链接、提及关系。
  • 使用如序列标注、实体链接和关系抽取等 NLP 任务从 PDF 和元数据填充图谱。
  • 开发 ScienceParse 系统,通过一个多阶段的特征丰富的 RNN/LSTM 流水线,从 PDFs 预测论文标题、作者和参考文献。
  • 将实体提及与知识库(UMLS、DBpedia)进行对齐,并对候选实体使用基于神经评分的实体链接,结合标记级和上下文特征。
  • 从多个实体提取模型(统计、混合、现成的)聚合输出,以在部署中提高精度和产出。
  • 解决长尾挑战(作者消歧义、本体匹配、图像提取、知识库覆盖有限),并提出用于扩展覆盖的远程监督。

实验结果

研究问题

  • RQ1如何从异构来源构建可扩展的文献图,以支持高级学术查询?
  • RQ2哪些 NLP 方法在从科学文本中提取论文元数据、实体和关系方面有效?
  • RQ3在科学领域如何实现实体链接到知识库,以及如何处理领域特定的覆盖缺口?
  • RQ4在构建和维护如此庞大的文献图时面临的主要挑战是什么,如何进行缓解?
  • RQ5在实践中将多种提取方法结合对精确度和覆盖率的影响是什么?

主要发现

方法CS 精确度CS 产出Bio 精确度Bio 产出
统计98.471294.4928
混合91.5199092.13126
现成的97.487377.51206
  • 文献图包含超过 280 百万的节点(包括论文、作者和实体),以及如引用和作者关系等多种互动边。
  • ScienceParse 能从 PDF 中提取标题、作者和参考文献,精度约在 85%–98% 之间,具体取决于字段(标题、作者、书目字段)。
  • 三种实体提取/链接方法(统计、混合、现成的)各有取舍;统计方法提供最高精度,混合方法提供最高覆盖率(产出),现成的在 CS 中具有竞争力的精度,在生物领域则较低。
  • 在 CS 与生物医学领域的评估显示,混合方法在产出方面达到最高,例如 CS 1990、Bio 3126,而统计方法在文档级测试中实现高精度(CS 98.4、Bio 94.4)。
  • 实体链接模型使用 KB 基线对齐(UMLS、DBpedia),并对候选实体进行神经评分,在整理数据集上实现 Bag of Concepts 的 F1 分数:CS 84.6,Bio 85.8。
  • 系统聚合多种提取输出以在部署中提高总体覆盖和质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。