[论文解读] Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario
本论文提出了首个基于Transformer的西班牙语生物医学与临床语言模型,从头训练,使用混合领域(生物医学与临床)数据,以提升低资源环境下的性能。通过利用领域特定的预训练和词汇优化,这些模型在生物医学和真实医院出院记录的多个命名实体识别(NER)任务中,优于mBERT和BETO。
This work presents biomedical and clinical language models for Spanish by experimenting with different pretraining choices, such as masking at word and subword level, varying the vocabulary size and testing with domain data, looking for better language representations. Interestingly, in the absence of enough clinical data to train a model from scratch, we applied mixed-domain pretraining and cross-domain transfer approaches to generate a performant bio-clinical model suitable for real-world clinical data. We evaluated our models on Named Entity Recognition (NER) tasks for biomedical documents and challenging hospital discharge reports. When compared against the competitive mBERT and BETO models, we outperform them in all NER tasks by a significant margin. Finally, we studied the impact of the model's vocabulary on the NER performances by offering an interesting vocabulary-centric analysis. The results confirm that domain-specific pretraining is fundamental to achieving higher performances in downstream NER tasks, even within a mid-resource scenario. To the best of our knowledge, we provide the first biomedical and clinical transformer-based pretrained language models for Spanish, intending to boost native Spanish NLP applications in biomedicine. Our best models are freely available in the HuggingFace hub: https://huggingface.co/BSC-TeMU.
研究动机与目标
- 解决西班牙语在生物医学与临床领域中缺乏领域特定自然语言处理资源的问题。
- 克服通用领域模型(如mBERT和BETO)在低资源、领域特定NER任务中的局限性。
- 探究混合领域预训练与词汇设计在提升下游性能方面的有效性。
- 开发并发布首个公开可用、高性能的西班牙语生物医学与临床语言模型,用于真实世界应用。
提出的方法
- 从头开始使用总计约1.3亿词的生物医学与临床语料联合预训练RoBERTa基模型。
- 探索不同的掩码策略:子词级掩码(SWM)与整词掩码(WWM),并调整词汇表大小(15k、30k、52k)。
- 通过结合生物医学文本(PubMed、SciELO、临床病例、爬虫数据)与临床记录(出院摘要、X光报告)实现混合领域预训练。
- 采用跨领域迁移学习,在混合数据上进行训练后,评估其在临床NER任务上的性能。
- 开展以词汇为中心的分析,比较mBERT、BETO与所提出模型在分词输出上的差异。
- 在三个NER基准上评估模型:两个生物医学基准(BioCreative、CANTEMIST)和一个临床基准(ICTUSnet),使用标准F1分数。
实验结果
研究问题
- RQ1与通用领域模型相比,领域特定预训练是否在中等资源场景下显著提升西班牙语NER性能?
- RQ2子词级掩码(SWM)与整词掩码(WWM)的选择如何影响下游NER性能?
- RQ3使用生物医学与临床数据进行混合领域预训练,是否能比单领域预训练在临床NER任务中取得更好性能?
- RQ4词汇表大小与分词策略对NER性能有何影响,特别是在处理罕见或复杂医学术语方面?
- RQ5从生物医学数据到临床数据的跨领域迁移,在真实医院出院报告上的性能提升程度如何?
主要发现
- 所提出的bio-cli-52k模型在所有NER任务中均取得最高F1分数,在生物医学与临床基准上均优于mBERT和BETO。
- 采用整词掩码(WWM)且词汇表大小为30k的模型在生物医学任务中表现更优,表明掩码策略与词汇表大小之间存在显著交互作用。
- 混合领域预训练(生物医学+临床)取得了最佳整体结果,挑战了以往认为混合领域预训练会降低性能的观点。
- 以词汇为中心的分析显示,mBERT和BETO中常见的过度分词现象会损害NER性能,尤其对复合医学术语影响显著。
- bio-cli-52k-vocab-cli模型在ICTUSnet临床测试集上取得最高F1分数,表明从生物医学数据到临床数据具有强大的跨领域迁移能力。
- 结果证实,即使在训练数据有限的情况下,领域特定预训练对于低资源环境下的高性能表现仍至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。