[論文レビュー] Fine-Tuned Large Language Models for Symptom Recognition from Spanish Clinical Text
本研究では、スペイン語の臨床テキストに対して複数の大規模言語モデル(LLM)をファインチューニングし、アンサンブルの多数決投票を用いて症状認識の性能を向上させる手法を提案する。最も優れた性能を示したモデル、XLM-RoBERTa Largeは、検証データでF1スコア0.70を達成し、一般ドメインモデルと比較して、ドメイン特化型のファインチューニングがスペイン語EHRにおける症状認識を顕著に向上させることを示している。
Abstract The accurate recognition of symptoms in clinical reports is significantly important in the fields of healthcare and biomedical natural language processing. These entities serve as essential building blocks for clinical information extraction, enabling retrieval of critical medical insights from vast amounts of textual data. Furthermore, the ability to identify and categorize these entities is fundamental for developing advanced clinical decision support systems, aiding healthcare professionals in diagnosis and treatment planning. In this study, we participated in SympTEMIST – a shared task on detection of symptoms, signs and findings in Spanish medical documents. We combine a set of large language models finetuned with the data released by the task's organizers. This article is part of the Proceedings of the BioCreative VIII Challenge and Workshop: Curation and Evaluation in the era of Generative Models.
研究の動機と目的
- ファインチューニングされた大規模言語モデルを用いて、スペイン語臨床ノートにおける症状認識を改善すること。
- 特に多数決投票を用いた予測の統合手法の有効性を評価すること。
- 低リソース環境下におけるドメイン特化型スペイン語臨床LLMと一般ドメインモデルの性能を比較すること。
- 電子健康記録から症状を正確に抽出できるようにすることで、臨床意思決定支援システムへの貢献を図ること。
提案手法
- SympTEMISTデータセット(744件のスペイン語臨床記録から構成)を用いて、6つのLLM(XLM-RoBERTa Base/Large、BBS、BBES、E5-base、E5-large)をファインチューニングした。
- 95%の訓練データ/5%の検証データに分割し、トークン化にはspaCy、タグ付けスキームにはIOBを使用した。
- 全モデルをバッチサイズ4、70エポック、初期の学習率5e-5、線形スケジューラーで訓練した。
- 全6つのモデルの予測を統合するために多数決投票(MV)を採用し、最も多数の賛同を得たラベルを優先した。
- 最終的なテスト予測のために、検証F1スコアに基づいて最も優れたモデルを選別した。
- モデルの訓練および推論には、PyTorchとHugging Face Transformersを用いた。
実験結果
リサーチクエスチョン
- RQ1ファインチューニングされた大規模言語モデルは、スペイン語臨床テキスト内の症状認識においてどの程度の性能を示すか?
- RQ2アンサンブルの多数決投票は、個々のモデルと比較して症状認識の正確性を向上させるか?
- RQ3この低リソース環境下で、ドメイン特化型スペイン語臨床LLMは一般ドメインモデルと比べてどの程度の性能を示すか?
- RQ4モデルアーキテクチャおよび事前学習データの影響は、症状認識性能にどのように現れるか?
主な発見
- XLM-RoBERTa Large(XLM-RL)が検証セットで最高のF1スコア0.70を達成し、他のモデルを上回った。
- テストセットでは、XLM-RLは精度0.62、再現率0.50、F1スコア0.56を示し、一般化性能の向上に余地があることがわかった。
- アンサンブルの多数決投票法はテストF1スコア0.64を達成し、個々のモデルよりもやや高い性能を示したが、予測の不一致による投票の希釈の可能性も示唆された。
- ドメイン特化型モデル(BBESおよびBBS)は一般ドメインモデルを上回り、臨床分野でのファインチューニングの重要性が浮き彫りになった。
- 誤検出は比較的低かったが、テストセットでは真の陽性の症状エンティティの多くが見逃された。
- 重み付き多数決投票(より優れたモデルに高い重みを割り当てる)を採用することで、投票の希釈を緩和し、アンサンブル性能を向上させられる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。