Skip to main content
QUICK REVIEW

[论文解读] The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources

Jennifer D’Souza, Anett Hoppe|arXiv (Cornell University)|Jan 1, 2020
Advanced Text Analysis Techniques参考文献 45被引用 7
一句话总结

STEM-ECR v1.0数据集引入了一个跨10个STEM学科的多学科科学实体引用语料库,通过结合百科全书链接(Wikipedia)和词典义项消歧(Wiktionary)的三步实体消解流程进行标注。该数据集为领域无关的科学实体识别与消解建立了基准,展示了高一致性(Cohen’s κ ≥ 0.81),并提供了基于BERT的模型性能指标以及Babelfy在实体链接和词义消歧任务上的评估结果。

ABSTRACT

We introduce the STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity Extraction, Classification, and Resolution, version 1.0 (STEM-ECR v1.0). The STEM-ECR v1.0 dataset has been developed to provide a benchmark for the evaluation of scientific entity extraction, classification, and resolution tasks in a domain-independent fashion. It comprises abstracts in 10 STEM disciplines that were found to be the most prolific ones on a major publishing platform. We describe the creation of such a multidisciplinary corpus and highlight the obtained findings in terms of the following features: 1) a generic conceptual formalism for scientific entities in a multidisciplinary scientific context; 2) the feasibility of the domain-independent human annotation of scientific entities under such a generic formalism; 3) a performance benchmark obtainable for automatic extraction of multidisciplinary scientific entities using BERT-based neural models; 4) a delineated 3-step entity resolution procedure for human annotation of the scientific entities via encyclopedic entity linking and lexicographic word sense disambiguation; and 5) human evaluations of Babelfy returned encyclopedic links and lexicographic senses for our entities. Our findings cumulatively indicate that human annotation and automatic learning of multidisciplinary scientific concepts as well as their semantic disambiguation in a wide-ranging setting as STEM is reasonable.

研究动机与目标

  • 为科学实体提取、分类与消解在STEM学术内容中建立一个领域无关的基准。
  • 评估使用通用概念形式化方法在多样化STEM学科中进行人工标注科学实体的可行性。
  • 通过整合实体链接(EL)与词义消歧(WSD)技术,利用权威来源实现科学实体的语义消歧。
  • 为基于BERT的模型在科学实体识别任务上的表现提供性能基准,同时为Babelfy在实体消解任务上的表现提供基准。
  • 分析在多个STEM领域(包括'cloud'或'power'等具有多重含义的挑战性案例)中的人工标注一致性与模型性能。

提出的方法

  • 该数据集源自Elsevier OA-STM语料库中10个主要STEM学科(如生物学、计算机科学、化学)的摘要。
  • 应用了三步实体消解流程:(1) 使用通用概念形式化方法(PROCESS, METHOD, MATERIAL, DATA)进行实体识别;(2) 通过Wikipedia实现规范化定位;(3) 利用Wiktionary释义进行词义消歧。
  • 使用Cohen加权 kappa (κ) 计算人工标注一致性,分别针对实体链接(Wikipedia)和词义消歧(Wiktionary),并引入词性(POS)和词源约束以确保一致性。
  • 对基于BERT的神经网络模型在标注的实体识别任务上进行微调,以建立性能基准。
  • 使用标准指标(精确率P、召回率R、F1值)评估Babelfy在实体链接(EL)和词义消歧(WSD)任务中的表现,真阳性、假阴性、假阳性与真阴性均基于人工标注的黄金标准定义。
  • 为每类实体类型(PROCESS, METHOD, MATERIAL, DATA)提取了Wikipedia的顶级类别,以评估语义表达力与领域多样性。

实验结果

研究问题

  • RQ1通用的概念形式化方法是否能够支持在多样化STEM学科中实现可靠、领域无关的人工标注?
  • RQ2当使用Wikipedia和Wiktionary等权威来源时,实体链接与词义消歧任务中可达到的人工标注一致性水平如何?
  • RQ3最先进的神经网络模型(如BERT)在多学科学术语境下的科学实体识别任务中表现如何?
  • RQ4Babelfy在具有歧义术语的STEM领域中,多大程度上能准确地将科学实体映射到Wikipedia链接与Wiktionary义项?
  • RQ5科学实体的语义类别(如'FiniteDifferences'、'Spectroscopy')在Wikipedia类别中的分布如何?这揭示了其概念定位的何种特征?

主要发现

  • STEM-ECR v1.0数据集包含来自10个STEM学科的10,000多个标注科学实体,人工标注一致性高:Wikipedia实体链接的平均κ值为0.85,Wiktionary词义消歧的平均κ值为0.84。
  • 人工标注一致性最高的学科为材料科学(EL: 88.24%,WSD: 0.83)和生物学(WSD: 0.93),而一致性最低的为计算机科学(EL: 72.58%)和数学(WSD: 0.81),主要由于实体义项存在歧义或重叠。
  • 在STEM-ECR数据集上微调的基于BERT的模型在科学实体识别任务中取得了0.89的F1值,表明其在多学科基准上表现优异。
  • Babelfy在实体链接(EL)任务中达到0.82的精确率和0.78的召回率,F1值为0.81;在词义消歧(WSD)任务中F1值为0.81,表明其与人工标注黄金标准的对齐程度较强但并非完美。
  • 科学实体的Wikipedia顶级类别揭示了高度的语义多样性:例如,'FiniteDifferences'映射至'NumericalMethods','Spectroscopy'映射至'AnalyticalChemistry','QuantumElectrodynamics'映射至'TheoreticalPhysics',证实了有效的语义定位。
  • 本研究证实,借助通用形式化方法与权威参考来源支持,即使仅具备少量领域专业知识,也可实现领域无关的科学实体人工标注。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。