[论文解读] Comprehensive Named Entity Recognition on CORD-19 with Distant or Weak Supervision
CORD-NER 使用远程监督和弱监督方法为 CORD-19 语料库创建一个全面的 75 型 NER 数据集,在关键生物医学类别上优于 SciSpacy,并允许增量添加新文档和实体类型。
We created this CORD-NER dataset with comprehensive named entity recognition (NER) on the COVID-19 Open Research Dataset Challenge (CORD-19) corpus (2020-03-13). This CORD-NER dataset covers 75 fine-grained entity types: In addition to the common biomedical entity types (e.g., genes, chemicals and diseases), it covers many new entity types related explicitly to the COVID-19 studies (e.g., coronaviruses, viral proteins, evolution, materials, substrates and immune responses), which may benefit research on COVID-19 related virus, spreading mechanisms, and potential vaccines. CORD-NER annotation is a combination of four sources with different NER methods. The quality of CORD-NER annotation surpasses SciSpacy (over 10% higher on the F1 score based on a sample set of documents), a fully supervised BioNER tool. Moreover, CORD-NER supports incrementally adding new documents as well as adding new entity types when needed by adding dozens of seeds as the input examples. We will constantly update CORD-NER based on the incremental updates of the CORD-19 corpus and the improvement of our system.
研究动机与目标
- 解决对 COVID-19 相关内容需要快速可适应的 NER,而无需大量人工注释。
- 为 CORD-19 语料库创建一个全面的 75 类型 NER 方案,包含 COVID-19 相关类型。
- 结合多种 NER 来源和监督信号以最大化注释质量。
- 实现通过种子引导实现对新文档和新实体类型的增量添加。
提出的方法
- 通过将元数据与全文合并并用 AutoPhrase 进行分词,然后再使用 Spacy,对 29,500 个 CORD-19 文档构建 CORD-NER 语料库。
- 融合四个 NER 来源: (i) 来自 Spacy 的预训练通用 NER,(ii) 来自 SciSpacy 的预训练生物医学 NER,(iii) 以 UMLS 作为知识库的知识库引导的远程监督 NER,(iv) 针对 COVID-19 具体类型的种子引导弱监督 NER,带有种子扩展。
- 将来自四个来源的实体类型对齐并整理为统一的 75 项 CORD-NER 层次结构(将 SciSpacy 类型映射到 UMLS 并为语料相关性进行裁剪)。
- 对全部 75 种类型使用这四种方法执行 NER 注释,然后合并结果,冲突解决优先考虑基于方法的注释质量。
- 生成整合输出 (CORD-NER.json 和 CORD-NER-full.json),包含元数据、语料和 NER 结果,并支持对语料和类型的增量更新。
实验结果
研究问题
- RQ1 proposed CORD-NER 系统在广义生物医学实体类型(基因、化学、疾病)上与现有 NER 工具相比的表现如何?
- RQ2是否能通过远程监督和种子引导的弱监督在最少人工标注的情况下有效识别 COVID-19 相关的实体类型?
- RQ3将 AutoPhrase 保留的短语结构纳入是否能提高 CORD-19 上的远程/弱监督 NER 表现?
- RQ4系统是否具备通过添加新文档和新实体类型在有限种子示例下实现增量更新的能力?
- RQ5CORD-NER 为下游 COVID-19 文本挖掘任务带来哪些定性收益?
主要发现
- CORD-NER 在化学和疾病实体类型上超过 SciSpacy,F1 分数具有显著优势(在他们的评估样本中超过 10%)。
- 该系统能够识别 COVID-19 相关概念(例如冠状病毒、病毒蛋白、免疫反应)超出标准生物医学类型。
- 该方法可以在不需要人工标注训练数据的情况下,使用远程监督和种子引导弱监督来进行 NER。
- CAND-NER 在其报道的比较中,对目标类型的召回/精确度权衡高于某些全监督基线。
- 该框架通过提供大量种子样本,支持对文档和新实体类型的增量添加。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。