Skip to main content
QUICK REVIEW

[论文解读] Revised JNLPBA Corpus: A Revised Version of Biomedical NER Corpus for Relation Extraction Task

Ming-Siang Huang, Po‐Ting Lai|arXiv (Cornell University)|Jan 29, 2019
Biomedical Text Mining and Ontologies参考文献 46被引用 19
一句话总结

本文介绍了经过修订的JNLPBA语料库,这是一个专门针对生物医学关系抽取(BRE)任务优化的手动标注生物医学命名实体识别(NER)数据集。通过在领域专家监督下对标注进行精细化处理,并聚焦于关键实体类型(蛋白质、DNA、RNA、细胞系和细胞类型)的指南,该语料库使三种系统(BANNER、Gimli、NERSuite)的NER性能平均提升了10%,证明其在下游BRE任务(如蛋白质-蛋白质相互作用和事件抽取)中的优越适用性。

ABSTRACT

The advancement of biomedical named entity recognition (BNER) and biomedical relation extraction (BRE) researches promotes the development of text mining in biological domains. As a cornerstone of BRE, robust BNER system is required to identify the mentioned NEs in plain texts for further relation extraction stage. However, the current BNER corpora, which play important roles in these tasks, paid less attention to achieve the criteria for BRE task. In this study, we present Revised JNLPBA corpus, the revision of JNLPBA corpus, to broaden the applicability of a NER corpus from BNER to BRE task. We preserve the original entity types including protein, DNA, RNA, cell line and cell type while all the abstracts in JNLPBA corpus are manually curated by domain experts again basis on the new annotation guideline focusing on the specific NEs instead of general terms. Simultaneously, several imperfection issues in JNLPBA are pointed out and made up in the new corpus. To compare the adaptability of different NER systems in Revised JNLPBA and JNLPBA corpora, the F1-measure was measured in three open sources NER systems including BANNER, Gimli and NERSuite. In the same circumstance, all the systems perform average 10% better in Revised JNLPBA than in JNLPBA. Moreover, the cross-validation test is carried out which we train the NER systems on JNLPBA/Revised JNLPBA corpora and access the performance in both protein-protein interaction extraction (PPIE) and biomedical event extraction (BEE) corpora to confirm that the newly refined Revised JNLPBA is a competent NER corpus in biomedical relation application. The revised JNLPBA corpus is freely available at iasl-btm.iis.sinica.edu.tw/BNER/Content/Revised_JNLPBA.zip.

研究动机与目标

  • 解决现有生物医学NER语料库在支持关系抽取任务方面的局限性。
  • 通过提升原始JNLPBA语料库的标注质量和一致性,增强其在生物医学关系抽取中的适用性。
  • 开发一个保留关键实体类型的修订语料库,同时解决原始数据集中的缺陷。
  • 评估NER系统在修订语料库上的性能,并与原始JNLPBA语料库进行比较。
  • 验证修订语料库在跨领域关系抽取任务(如PPIE和BEE)中的实用性。

提出的方法

  • 使用新的、聚焦的标注指南,由领域专家对原始JNLPBA语料库重新标注,强调特定生物医学实体。
  • 所有文摘均经过人工校对,以纠正不一致之处,并提高实体边界和类型标注的准确性。
  • 修订后的语料库保留了原始的实体类型:蛋白质、DNA、RNA、细胞系和细胞类型。
  • 在相同条件下,对NER系统(BANNER、Gimli、NERSuite)在原始和修订语料库上进行训练和评估。
  • 开展交叉验证实验,分别在JNLPBA或修订版JNLPBA上进行训练,并在PPIE和BEE数据集上进行测试,以评估模型的迁移能力。
  • 使用F1分数衡量性能,以量化NER质量的提升。

实验结果

研究问题

  • RQ1修订后的标注指南是否提升了NER系统在生物医学文本上的性能?
  • RQ2与原始JNLPBA语料库相比,修订版JNLPBA语料库在多大程度上提升了NER性能?
  • RQ3修订版JNLPBA语料库能否作为下游生物医学关系抽取任务的可靠训练资源?
  • RQ4在修订语料库上训练的NER系统在其他关系抽取基准(如PPIE和BEE)上的性能如何?
  • RQ5原始JNLPBA语料库中哪些具体的标注问题在修订版本中得到了解决?

主要发现

  • 在测试的三种NER系统(BANNER、Gimli、NERSuite)中,其在修订版JNLPBA语料库上的F1分数平均比在原始JNLPBA语料库上高出10个百分点。
  • 修订语料库在实体标注的一致性和准确性方面表现更优,尤其在复杂或模糊的生物医学术语上。
  • 交叉验证结果表明,基于修订版JNLPBA语料库训练的模型在PPIE和BEE数据集上泛化能力更强,表明其适用于关系抽取流程。
  • 人工校对过程成功解决了原始JNLPBA语料库中已知的缺陷,如不一致的实体边界和类型误标。
  • 修订版JNLPBA语料库已公开发布,旨在支持生物医学文本挖掘中的稳健训练与评估。
  • 本研究证实,高质量、任务特定的NER语料库能显著提升下游关系抽取任务的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。