QUICK REVIEW

[论文解读] Effective Use of Bidirectional Language Modeling for Transfer Learning in Biomedical Named Entity Recognition

Devendra Singh Sachan, Pengtao Xie|arXiv (Cornell University)|Nov 21, 2017

Topic Modeling参考文献 31被引用 32

一句话总结

本文提出一种用于生物医学命名实体识别（NER）的迁移学习方法，通过在无标签医学文本上预训练双向语言模型（BiLM），并将权重迁移以初始化NER模型。该方法在四个基准数据集上显著提升F1分数，加快收敛速度，并减少达到目标性能所需的数据量。

ABSTRACT

Biomedical named entity recognition (NER) is a fundamental task in text mining of medical documents and has many applications. Deep learning based approaches to this task have been gaining increasing attention in recent years as their parameters can be learned end-to-end without the need for hand-engineered features. However, these approaches rely on high-quality labeled data, which is expensive to obtain. To address this issue, we investigate how to use unlabeled text data to improve the performance of NER models. Specifically, we train a bidirectional language model (BiLM) on unlabeled data and transfer its weights to "pretrain" an NER model with the same architecture as the BiLM, which results in a better parameter initialization of the NER model. We evaluate our approach on four benchmark datasets for biomedical NER and show that it leads to a substantial improvement in the F1 scores compared with the state-of-the-art approaches. We also show that BiLM weight transfer leads to a faster model training and the pretrained model requires fewer training examples to achieve a particular F1 score.

研究动机与目标

为解决生物医学NER中标签数据有限的问题，该问题阻碍了高精度模型的训练。
在低资源生物医学NER场景下，提升模型泛化能力并减少过拟合。
探索通过双向语言建模进行无监督预训练，作为优于随机权重的初始化策略。
评估BiLM预训练是否能提升在已见和未见生物医学实体上的性能。
展示在微调NER模型时，收敛速度更快且对数据依赖性更低。

提出的方法

在大规模无标签生物医学文本上，使用左到右和右到左的语言建模目标，对双向语言模型（BiLM）进行预训练。
NER模型架构与BiLM的编码器组件（BiLSTM、用于字符特征的CNN，以及词嵌入）保持一致，仅顶部的CRF层除外。
将预训练的BiLM权重迁移至NER模型的编码器层，从而从上下文语言理解中获得强大的归纳偏置。
使用CRF层进行序列标注，对标注的生物医学NER数据端到端微调NER模型。
使用字符级CNN提取子词特征，词嵌入使用PubMed衍生的预训练初始化。
该方法在预训练和微调阶段使用相同的模型架构，实现权重的直接迁移。

实验结果

研究问题

RQ1使用双向语言模型进行无监督预训练是否能提升低资源数据集上的生物医学NER性能？
RQ2基于BiLM的权重迁移是否能加快NER模型微调过程中的收敛速度？
RQ3预训练在多大程度上减少了达到目标F1分数所需的标注样本数量？
RQ4与基线模型相比，该方法在罕见或长命名的生物医学实体上的表现如何？
RQ5预训练是否能提升对生物医学文本中未见疾病实体的召回率？

主要发现

BiLM预训练的NER模型在四个基准生物医学NER数据集上达到最先进（SOTA）的F1分数，优于先前方法。
与随机初始化的模型相比，该模型在微调过程中收敛速度显著更快。
与随机初始化模型相比，预训练模型在更少的标注训练样本下即可达到目标F1分数。
该方法提升了对已见和未见疾病实体的召回率，尤其对长名称或模糊名称（如“very-long-chain acyl-coenzyme a dehydrogenase deficiency”）有显著改善。
该方法对生物医学文本中常见的语言变体和复杂实体名称表现出强鲁棒性。
BiLM权重的迁移提供了强大的归纳偏置，减少了过拟合并提升了低资源NER任务中的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。