Skip to main content
QUICK REVIEW

[论文解读] Cross-type Biomedical Named Entity Recognition with Deep Multi-Task Learning

Xuan Wang, Yu Zhang|arXiv (Cornell University)|Jan 30, 2018
Topic Modeling参考文献 27被引用 19
一句话总结

本文提出了一种用于跨类型生物医学命名实体识别(BioNER)的深度多任务学习框架,通过共享字符级和词级表示,联合训练多种实体类型(如基因、化学物质、疾病)的BiLSTM-CRF模型。该方法通过利用跨类型信息,在15个基准数据集上显著提升了性能,优于最先进的系统和无需人工特征工程的单任务神经网络模型。

ABSTRACT

Motivation: State-of-the-art biomedical named entity recognition (BioNER) systems often require handcrafted features specific to each entity type, such as genes, chemicals and diseases. Although recent studies explored using neural network models for BioNER to free experts from manual feature engineering, the performance remains limited by the available training data for each entity type. Results: We propose a multi-task learning framework for BioNER to collectively use the training data of different types of entities and improve the performance on each of them. In experiments on 15 benchmark BioNER datasets, our multi-task model achieves substantially better performance compared with state-of-the-art BioNER systems and baseline neural sequence labeling models. Further analysis shows that the large performance gains come from sharing character- and word-level information among relevant biomedical entities across differently labeled corpora.

研究动机与目标

  • 解决由于每类实体的训练数据不足,导致神经网络模型在BioNER中性能受限的问题。
  • 克服手工设计特征所需专家投入且阻碍向新实体类型泛化的问题。
  • 通过多任务学习在不同生物医学实体类型之间共享有用的语言模式,以提升实体识别性能。
  • 开发一种统一的、端到端的神经网络模型,消除人工特征工程,同时实现最先进水平的性能。

提出的方法

  • 该模型采用BiLSTM-CRF架构,并增加一个上下文相关的BiLSTM层,用于编码每个标记的字符级序列。
  • 通过在包含不同实体类型的多个生物医学命名实体识别数据集上联合训练,实现多任务学习。
  • 在任务之间共享字符级和词级表示,实现相关实体类型之间的知识迁移。
  • 该框架同时利用词嵌入和字符级特征,以提升对罕见或复杂实体的识别能力。
  • 采用联合目标函数进行端到端训练,同时优化所有实体类型的性能。
  • 使用单一神经网络架构,所有任务共享该架构,并通过任务特定的CRF层进行解码。

实验结果

研究问题

  • RQ1当每类实体的训练数据有限时,多任务学习能否提升生物医学命名实体识别的性能?
  • RQ2字符级和词级表示在不同生物医学实体类型之间能共享到何种程度,以增强识别效果?
  • RQ3在多个实体类型上联合训练是否能降低对长或复杂生物医学实体的检测错误率?
  • RQ4与依赖手工特征的最先进系统相比,所提出的多任务模型表现如何?
  • RQ5统一的神经网络模型能否在无需人工特征工程的情况下,实现对多样化生物医学实体类型的优越性能?

主要发现

  • 所提出的多任务模型在15个基准数据集上,显著优于最先进的BioNER系统和基线神经序列标注模型。
  • 通过保持实体完整性,避免将实体分割为子部分,该模型显著提升了对长生物医学实体的识别能力。
  • 通过学习在不同数据集中以不同上下文出现的相似术语,该模型减少了边界错误,特别是右边界过度扩展的问题。
  • 性能提升主要归因于在不同实体类型之间共享的字符级和词级表示,而不仅仅是训练数据量的增加。
  • 即使训练时间略有增加,该多任务模型仍优于单任务模型,证明了知识迁移的高效性。
  • 案例研究证实,该模型能正确识别复杂实体(如'endo-beta-1,4-glucanase-encoding genes'和'SMase'),并保持正确的边界,而单任务模型则无法做到。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。