Skip to main content
QUICK REVIEW

[论文解读] Effective Use of Bidirectional Language Modeling for Medical Named Entity Recognition.

Devendra Singh Sachan, Pengtao Xie|arXiv (Cornell University)|Nov 21, 2017
Topic Modeling被引用 8
一句话总结

本文提出使用预训练双向语言模型(Bi-LM)权重来初始化医学命名实体识别(NER)模型,以提升性能并提高训练效率。在使用无标注生物医学文本进行微调后,该方法相比随机初始化,实现了更高的F1分数、更快的收敛速度以及更低的数据需求。

ABSTRACT

Biomedical named entity recognition (NER) is a fundamental task in text mining of medical documents and has a lot of applications. Existing approaches for NER require manual feature engineering in order to represent words and its corresponding contextual information. Deep learning based approaches have been gaining increasing attention in recent years as their weight parameters can be learned end-to-end without the need for hand-engineered features. These approaches rely on high-quality labeled data which is expensive to obtain. To address this issue, we investigate how to use widely available unlabeled text data to improve the performance of NER models. Specifically, we train a bidirectional language model (Bi-LM) on unlabeled data and transfer its weights to a NER model with the same architecture as the Bi-LM, which results in a better parameter initialization of the NER model. We evaluate our approach on three datasets for disease NER and show that it leads to a remarkable improvement in F1 score as compared to the model with random parameter initialization. We also show that Bi-LM weight transfer leads to faster model training. In addition, our model requires fewer training examples to achieve a particular F1 score.

研究动机与目标

  • 通过利用深度学习,减少生物医学NER中对手动特征工程的依赖。
  • 通过预训练利用无标注生物医学文本,提升NER性能。
  • 加速模型收敛并减少有效NER任务的数据需求。
  • 评估Bi-LM权重迁移对多个数据集上疾病NER的影响。

提出的方法

  • 在大规模无标注生物医学文本上预训练一个双向语言模型(Bi-LM)。
  • 将学习到的Bi-LM权重迁移至具有相同架构的NER模型编码器中进行初始化。
  • 在标注的疾病NER数据集上对初始化后的NER模型进行微调。
  • 与随机初始化的NER模型相比,评估其性能和训练动态。
  • 在Bi-LM预训练和NER微调中使用相同的模型架构,以确保参数兼容性。
  • 在三个疾病NER数据集上进行评估,以检验模型的泛化能力和鲁棒性。

实验结果

研究问题

  • RQ1在无标注生物医学文本上预训练双向语言模型,是否能提升下游NER任务的性能?
  • RQ2将Bi-LM权重迁移是否能加快NER训练过程中的收敛速度?
  • RQ3Bi-LM初始化在多大程度上减少了达到目标F1分数所需标注样本的数量?
  • RQ4与随机初始化相比,Bi-LM初始化在F1分数和训练效率方面表现如何?

主要发现

  • 在所有三个疾病NER数据集上,Bi-LM初始化的NER模型相比随机初始化均实现了显著的F1分数提升。
  • 使用Bi-LM初始化的模型训练收敛速度明显快于随机初始化。
  • 该方法减少了达到特定F1分数所需训练样本的数量,表明具有更高的数据效率。
  • 该方法在多个数据集上均表现出一致的性能提升,显示出对领域差异的鲁棒性。
  • 使用预训练的Bi-LM权重提供了更优的参数初始化,从而促进了更有效的端到端学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。