[論文レビュー] Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
本論文は、指示調整済みの LLaMA 系大規模言語モデルを BiomedBERT と比較し、臨床 NER と RE を複数機関データセットで評価した。その結果、LLM は低リソースおよび未知の設定で BERT を上回る可能性がある一方で、資源を大幅に要し、スループットが遅い。
Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BERT in terms of performance, generalizability, computational resources, and throughput to BERT. Results: LLaMA models outperformed BERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented "Kiwi," a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.
研究の動機と目的
- 指示調整済み LLaMA-2/LLaMA-3 の臨床 NER および RE における性能を diverse data sources に渡って BiomedBERT と比較評価する。
- 主要なエンティティと修飾語を網羅する包括的な多機関臨床 IE コーパスを作成する。
- 一般化可能性、スルーパット、エネルギー消費、メモリ要件を評価する。
- 両方のモデルファミリーを統合するオープンソースの臨床 IE パイプライン Kiwi を提供する。
提案手法
- 4つのデータセット臨床 IE コーパス(UTP、MTSamples、MIMIC-III、i2b2)を構築し、4 つの主要エンティティと 16 の修飾語を含む。
- PEFT(LoRA)と 4 ビット量子化を用いて LLaMA-2-chat および LLaMA-3-instruct を指示調整し、NER と RE で BiomedBERT と比較する。
- NER および RE に対して統一的なスパンベースの指示形式を使用する。
- 正確一致と緩和一致の基準、さらにはクロス機関一般化と資源計算(GPU 時間、メモリ、エネルギー)を評価する。
- Kiwi:LLaMA 系と BiomedBERT 系のモデルを組み合わせたオープンソース IE パイプラインを提供する。
実験結果
リサーチクエスチョン
- RQ1指示調整済み LLaMA モデルは、臨床 NER および RE において複数データ源を跨いで BiomedBERT を上回るか。
- RQ2未知の機関/データセットへ性能は一般化するか。
- RQ3臨床 IE における LLM と BERT の計算コスト、スループット、エネルギ影響はどのようか。
- RQ4Kiwi のような単一パイプラインは、両方のモデルファミリーを使った実用展開に有効か。
主な発見
| Table 2: Exact F1 scores (NER, RE) across datasets and unseen generalizability (i2b2) | |||||||||
|---|---|---|---|---|---|---|---|---|---|
| NER | LLaMA-2-7B | 0.929 | UTP | 0.860 | MTSamples | 0.838 | MIMIC-III | 0.846 | i2b2 (Unseen) |
| NER | LLaMA-2-13B | 0.932 | UTP | 0.868 | MTSamples | 0.847 | MIMIC-III | 0.853 | i2b2 (Unseen) |
| NER | LLaMA-2-70B | 0.931 | UTP | 0.871 | MTSamples | 0.847 | MIMIC-III | 0.860 | i2b2 (Unseen) |
| NER | LLaMA-3-8B | 0.929 | UTP | 0.869 | MTSamples | 0.843 | MIMIC-III | 0.852 | i2b2 (Unseen) |
| NER | LLaMA-3-70B | 0.932 | UTP | 0.876 | MTSamples | 0.855 | MIMIC-III | 0.872 | i2b2 (Unseen) |
| NER | BiomedBERT | 0.921 | UTP | 0.833 | MTSamples | 0.810 | MIMIC-III | 0.798 | i2b2 (Unseen) |
| RE | LLaMA-2-7B | 0.916 | UTP | 0.785 | MTSamples | 0.823 | MIMIC-III | 0.823 | i2b2 (Unseen) |
| RE | LLaMA-2-13B | 0.915 | UTP | 0.793 | MTSamples | 0.833 | MIMIC-III | 0.833 | i2b2 (Unseen) |
| RE | LLaMA-2-70B | 0.918 | UTP | 0.795 | MTSamples | 0.850 | MIMIC-III | 0.850 | i2b2 (Unseen) |
| RE | LLaMA-3-8B | 0.936 | UTP | 0.787 | MTSamples | 0.859 | MIMIC-III | 0.859 | i2b2 (Unseen) |
| RE | LLaMA-3-70B | 0.937 | UTP | 0.795 | MTSamples | 0.858 | MIMIC-III | 0.858 | i2b2 (Unseen) |
| RE | BiomedBERT | 0.898 | UTP | 0.670 | MTSamples | 0.808 | MIMIC-III | 0.808 | i2b2 (Unseen) |
- LLama モデルは、データセット全体で正確な NER/RE スコアにおいて BiomedBERT を一貫して上回り、特に低リソースおよび未知設定で顕著である。
- データが豊富な場合、LLaMA のゲインは控えめ(NER ~1%、RE ~1.5–3.7%)だが、低リソース設定ではゲインが大きい(NER 最大約4.5%、RE 最大約12.5%)。
- 未知の i2b2 データでは、LLaMA-3-70B が BiomedBERT に対して NER で F1 推定約7%以上、RE で約4%の改善を達成。
- LLaMA モデルは BiomedBERT と比較して、メモリ、GPU 時間、エネルギーを大幅に多く消費し、推論が遅くなる(場合によっては最大 28 倍遅い)。
- Kiwi は LLaMA ベースおよび BiomedBERT ベースの両方のオプションを含む、実用用途向けのオープンソース Docker ベース IE パイプラインを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。