QUICK REVIEW

[논문 리뷰] Fine-Tuned Large Language Models for Symptom Recognition from Spanish Clinical Text

Mai A. Shaaban, Abbas Akkasi|arXiv (Cornell University)|2023. 11. 12.

Biomedical Text Mining and Ontologies인용 수 1

한 줄 요약

이 연구는 스페인어 임상 텍스트에 대해 여러 대규모 언어 모델(Large Language Models, LLMs)을 피팅 트레이닝하고 앙상블 다수결 투표를 사용하여 성능을 향상시키기 위해, 증상 인식을 위한 접근법을 제안한다. 최고의 성능을 보인 모델인 XLM-RoBERTa Large는 검증 데이터에서 F1 스코어 0.70을 기록하였으며, 일반 도메인 모델에 비해 도메인 특화 피팅 트레이닝이 스페인어 전자 건강 기록(Electronic Health Records, EHRs) 내 증상 인식에 크게 기여하는 것으로 나타났다.

ABSTRACT

Abstract The accurate recognition of symptoms in clinical reports is significantly important in the fields of healthcare and biomedical natural language processing. These entities serve as essential building blocks for clinical information extraction, enabling retrieval of critical medical insights from vast amounts of textual data. Furthermore, the ability to identify and categorize these entities is fundamental for developing advanced clinical decision support systems, aiding healthcare professionals in diagnosis and treatment planning. In this study, we participated in SympTEMIST – a shared task on detection of symptoms, signs and findings in Spanish medical documents. We combine a set of large language models finetuned with the data released by the task's organizers. This article is part of the Proceedings of the BioCreative VIII Challenge and Workshop: Curation and Evaluation in the era of Generative Models.

연구 동기 및 목표

피팅 트레이닝된 대규모 언어 모델을 사용하여 스페인어 임상 노트 내 증상 인식을 향상시키기.
특히 다수결 투표를 포함한 앙상블 방법의 효과를 평가하여 다수의 LLMs 예측을 통합하는 데에 초점 맞추기.
이번 저자원 환경에서 도메인 특화 스페인어 임상 LLMs가 일반 도메인 모델과 비교하여 어떻게 성능을 내는지 평가하기.
전자 건강 기록에서 증상의 정확한 추출을 가능하게 하여 임상 의사결정 지원 시스템에 기여하기.

제안 방법

SympTEMIST 데이터셋의 744개 스페인어 임상 기록을 대상으로 XLM-RoBERTa Base/Large, BBS, BBES, E5-base, E5-large 총 6개의 LLMs를 피팅 트레이닝하였다.
95% 훈련 / 5% 검증 분할을 적용하였으며, 토크나이제이션에는 spaCy를 사용하고, IOB 태깅 체계를 적용하였다.
모든 모델을 배치 크기 4, 70 에포크, 초기 학습률 5e-5, 선형 스케줄러로 훈련하였다.
모든 6개 모델의 예측을 통합하기 위해 다수결 투표(Majority Voting, MV)를 적용하였으며, 가장 높은 공감도를 보인 레이블을 우선시하였다.
최종 테스트 예측을 위해 검증 F1 스코어 기반으로 최고 성능을 보인 모델들을 선별하였다.
모델 훈련 및 추론에는 PyTorch와 Hugging Face Transformers를 사용하였다.

실험 결과

연구 질문

RQ1피팅 트레이닝된 대규모 언어 모델은 스페인어 임상 텍스트 내 증상 인식에 어떻게 성능을 내는가?
RQ2앙상블 다수결 투표는 개별 모델 대비 증상 인식 정확도를 향상시키는가?
RQ3이 저자원 환경에서 도메인 특화 스페인어 임상 LLMs는 일반 도메인 모델과 비교하여 어떻게 성능을 내는가?
RQ4모델 아키텍처와 사전학습 데이터는 증상 인식 성능에 어떤 영향을 미치는가?

주요 결과

XLM-RoBERTa Large(XLM-RL) 모델이 검증 세트에서 가장 높은 F1 스코어 0.70을 기록하여 다른 모델들을 압도하였다.
테스트 세트에서는 정밀도 0.62, 재현도 0.50, F1 스코어 0.56를 기록하였으며, 일반화 능력 향상 여지가 있음을 시사하였다.
앙상블 다수결 투표 방법은 테스트 F1 스코어 0.64를 기록하여 개별 모델 대비 중간 정도의 성능 향상을 보였지만, 일관되지 않은 예측으로 인한 투표 분산의 가능성이 있었다.
BBES와 BBS와 같은 도메인 특화 모델이 일반 도메인 모델보다 뛰어난 성능을 보였으며, 임상 피팅 트레이닝의 중요성을 입증하였다.
거짓 양성은 상대적으로 낮았지만, 테스트 세트에서 진짜 양성 증상 엔티티의 상당수를 놓친 것으로 나타났다.
결과적으로, 더 높은 성능을 보이는 모델을 우선시하는 가중치 다수결 투표 방식을 도입할 경우, 투표 분산 문제를 완화하고 앙상블 성능을 향상시킬 수 있을 것으로 제안된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.