QUICK REVIEW

[論文レビュー] CPLLM: Clinical Prediction with Large Language Models

Ofir Ben Shoham, Nadav Rappoport|arXiv (Cornell University)|Sep 20, 2023

Machine Learning in Healthcare被引用数 9

ひとこと要約

CPLLM は構造化 EHR データのプロンプトで大規模言語モデルをファインチューニングし将来の診断を予測。RETAIN、Med-BERT、 Logistic Regression を超え三つの疾患予測タスクを二つのデータセットで達成。

ABSTRACT

We present Clinical Prediction with Large Language Models (CPLLM), a method that involves fine-tuning a pre-trained Large Language Model (LLM) for clinical disease and readmission prediction. We utilized quantization and fine-tuned the LLM using prompts. For diagnosis prediction, we predict whether patients will be diagnosed with a target disease during their next visit or in the subsequent diagnosis, leveraging their historical diagnosis records. We compared our results to various baselines, including RETAIN, and Med-BERT, the current state-of-the-art model for disease prediction using temporal structured EHR data. In addition, We also evaluated CPLLM for patient hospital readmission prediction and compared our method's performance with benchmark baselines. Our experiments have shown that our proposed method, CPLLM, surpasses all the tested models in terms of PR-AUC and ROC-AUC metrics, showing state-of-the-art results for diagnosis prediction and patient hospital readmission prediction. Such a method can be easily implemented and integrated into the clinical process to help care providers estimate the next steps of patients

研究の動機と目的

構造化 EHR データから逐次的な臨床イベントを捉えるために大規模言語モデルの活用を動機づける。
テキスト化された医療概念と拡張トークナイザを用いたプロンプトベースのファインチューニング手法（CPLLM）を提案する。
MIMIC-IV と eICU-CRD データセットの三つの疾患予測タスクで CPLLM を評価する。
臨床ドメインの事前学習を追加せずに、より長いシークエンスを扱える状態最先端のベースラインを上回り得ることを示す。

提案手法

構造化 EHR データをそれぞれの診断をトークンとし、各患者の履歴を文書とするテキスト系列に変換する。
効率性のため高効率な PEFT with QLoRA を用いて二つの LLM（Llama2-13B および BioMedLM-2.7B）をファインチューニングする。
患者の診断履歴とターゲット疾患を含むプロンプトを使用して二値予測を得る。
LLM のトークナイザに診断コードの説明をカバーする新しいトークンを追加し、追加トークン有無で比較（アブレーション）。
追加の臨床前学習は不要；6 エポック訓練し、検証 PR-AUC で最良のチェックポイントを選択する。
タスク全体で PR-AUC（主要指標）と ROC-AUC（副指標）を用いて性能を報告する。

実験結果

リサーチクエスチョン

RQ1CPLLM は構造化 EHR の疾患予測において baseline（Logistic Regression、RETAIN、Med-BERT）より PR-AUC および ROC-AUC の改善を達成するか。
RQ2トークナイザの語彙に追加トークンを加えることがモデルの性能にどのような影響を与えるか。
RQ3CPLLM は ICD-9 ベースと ICD-10 ベースのデータセットおよび異なる疾患間でどのように性能を発揮するか。
RQ4構造化 EHR 予測タスクにおいて競争力のある性能には臨床ドメインの事前学習が必要か。

主な発見

Task	Model	PR-AUC	ROC-AUC
Adult respiratory failure	Logistic Regression	35.050	74.664
Adult respiratory failure	RETAIN	34.22 ± 0.299	74.454 ± 0.173
Adult respiratory failure	Med-BERT	34.81 ± 0.208	75.407 ± 0.073
Adult respiratory failure	CPLLM-Llama2	35.962 ± 0.380	76.407 ± 0.262
Adult respiratory failure	CPLLM-BioMedLM	35.494 ± 0.352	75.975 ± 0.214
Chronic kidney disease	Logistic Regression	32.230	83.016
Chronic kidney disease	RETAIN	31.407 ± 1.379	81.692 ± 0.899
Chronic kidney disease	Med-BERT	33.37 ± 0.891	83.12 ± 0.173
Chronic kidney disease	CPLLM-Llama2	33.992 ± 1.262	83.034 ± 0.511
Chronic kidney disease	CPLLM-BioMedLM	33.984 ± 1.077	83.404 ± 0.429
Acute and unspecified renal failure	Logistic Regression	42.075	77.486
Acute and unspecified renal failure	RETAIN	43.603 ± 0.409	77.364 ± 0.394
Acute and unspecified renal failure	Med-BERT	42.237 ± 0.408	77.427 ± 0.185
Acute and unspecified renal failure	CPLLM-Llama2	45.442 ± 0.839	78.504 ± 0.684
Acute and unspecified renal failure	CPLLM-BioMedLM	45.161 ± 1.622	78.484 ± 0.403

CPLLM は三つのタスクと二つのデータセット全てで PR-AUC および ROC-AUC のベースラインを上回る。
Adult respiratory failure タスク：CPLLM-Llama2 PR-AUC 35.962% vs Logistic Regression 35.050%（絶対差 0.912%、相対 2.6%）。
Chronic kidney disease タスク：CPLLM-Llama2 PR-AUC 33.992% および ROC-AUC 83.034%；CPLLM-BioMedLM は PR-AUC 33.984%、ROC-AUC 83.404% とほぼ同等。
Acute and unspecified renal failure タスク：CPLLM-Llama2 PR-AUC 45.442% および ROC-AUC 78.504%。
アブレーションにより追加トークンが12指標中9指標で性能向上。
CPLLM は多くのベースラインよりも長いシーケンス処理能力を持つ（BioMedLM 1024 トークン、Llama2 4096 トークン）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。