QUICK REVIEW

[论文解读] Fine-Tuned Large Language Models for Symptom Recognition from Spanish Clinical Text

Mai A. Shaaban, Abbas Akkasi|arXiv (Cornell University)|Nov 12, 2023

Biomedical Text Mining and Ontologies被引用 1

一句话总结

本研究在西班牙语临床文本上微调多个大语言模型（LLMs），用于症状识别，采用集成多数投票方法以提升性能。表现最佳的模型XLM-RoBERTa Large在验证数据上的F1得分为0.70，表明与通用领域模型相比，特定领域的微调能显著提升西班牙语电子健康记录中的症状识别效果。

ABSTRACT

Abstract The accurate recognition of symptoms in clinical reports is significantly important in the fields of healthcare and biomedical natural language processing. These entities serve as essential building blocks for clinical information extraction, enabling retrieval of critical medical insights from vast amounts of textual data. Furthermore, the ability to identify and categorize these entities is fundamental for developing advanced clinical decision support systems, aiding healthcare professionals in diagnosis and treatment planning. In this study, we participated in SympTEMIST – a shared task on detection of symptoms, signs and findings in Spanish medical documents. We combine a set of large language models finetuned with the data released by the task's organizers. This article is part of the Proceedings of the BioCreative VIII Challenge and Workshop: Curation and Evaluation in the era of Generative Models.

研究动机与目标

通过微调的大语言模型提升西班牙语临床记录中的症状识别效果。
评估集成方法（尤其是多数投票）在结合多个LLM预测结果方面的有效性。
在低资源环境下，评估特定领域西班牙语临床LLM与通用领域模型的性能对比。
通过从电子健康记录中准确提取症状，为临床决策支持系统提供支持。

提出的方法

在包含744份西班牙语临床记录的SympTEMIST数据集上，对六种LLM（XLM-RoBERTa Base/Large、BBS、BBES、E5-base和E5-large）进行微调。
采用95%训练集 / 5%验证集的划分方式，使用spaCy进行分词，并采用IOB标注方案。
所有模型均使用批量大小为4、70个周期、初始初始值学习率为5e-5、线性学习率调度器进行训练。
采用多数投票（MV）方法整合所有六个模型的预测结果，优先选择共识度最高的标签。
基于验证集F1得分选择表现最佳的模型进行最终测试预测。
使用PyTorch和Hugging Face Transformers进行模型训练与推理。

实验结果

研究问题

RQ1微调后的大型语言模型在识别西班牙语临床文本中的症状方面表现如何？
RQ2与单个模型相比，集成多数投票方法是否能提升症状识别的准确性？
RQ3在本低资源环境下，特定领域西班牙语临床LLM与通用领域LLM相比表现如何？
RQ4模型架构与预训练数据对症状识别性能有何影响？

主要发现

XLM-RoBERTa Large（XLM-RL）模型在验证集上取得了最高的F1得分为0.70，优于其他模型。
在测试集上，XLM-RL的精确率为0.62，召回率为0.50，F1得分为0.56，表明其泛化能力仍有提升空间。
集成多数投票方法在测试集上取得了0.64的F1得分，相较于单个模型有中等程度的提升，但存在因预测不一致导致的投票稀释现象。
如BBES和BBS等特定领域模型优于通用领域模型，凸显了临床微调的重要性。
假阳性结果相对较少，但模型在测试集中漏检了大量真实的症状实体。
结果表明，通过加权多数投票（优先考虑表现更优的模型）可缓解投票稀释问题，从而提升集成性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。