Skip to main content
QUICK REVIEW

[論文レビュー] CPLLM: Clinical Prediction with Large Language Models

Ofir Ben Shoham, Nadav Rappoport|arXiv (Cornell University)|Sep 20, 2023
Machine Learning in Healthcare被引用数 9
ひとこと要約

CPLLM は構造化 EHR データのプロンプトで大規模言語モデルをファインチューニングし 将来の診断を予測。RETAIN、Med-BERT、 Logistic Regression を超え 三つの疾患予測タスクを二つのデータセットで達成。

ABSTRACT

We present Clinical Prediction with Large Language Models (CPLLM), a method that involves fine-tuning a pre-trained Large Language Model (LLM) for clinical disease and readmission prediction. We utilized quantization and fine-tuned the LLM using prompts. For diagnosis prediction, we predict whether patients will be diagnosed with a target disease during their next visit or in the subsequent diagnosis, leveraging their historical diagnosis records. We compared our results to various baselines, including RETAIN, and Med-BERT, the current state-of-the-art model for disease prediction using temporal structured EHR data. In addition, We also evaluated CPLLM for patient hospital readmission prediction and compared our method's performance with benchmark baselines. Our experiments have shown that our proposed method, CPLLM, surpasses all the tested models in terms of PR-AUC and ROC-AUC metrics, showing state-of-the-art results for diagnosis prediction and patient hospital readmission prediction. Such a method can be easily implemented and integrated into the clinical process to help care providers estimate the next steps of patients

研究の動機と目的

  • 構造化 EHR データから逐次的な臨床イベントを捉えるために大規模言語モデルの活用を動機づける。
  • テキスト化された医療概念と拡張トークナイザを用いたプロンプトベースのファインチューニング手法(CPLLM)を提案する。
  • MIMIC-IV と eICU-CRD データセットの三つの疾患予測タスクで CPLLM を評価する。
  • 臨床ドメインの事前学習を追加せずに、より長いシークエンスを扱える状態最先端のベースラインを上回り得ることを示す。

提案手法

  • 構造化 EHR データをそれぞれの診断をトークンとし、各患者の履歴を文書とするテキスト系列に変換する。
  • 効率性のため高効率な PEFT with QLoRA を用いて二つの LLM(Llama2-13B および BioMedLM-2.7B)をファインチューニングする。
  • 患者の診断履歴とターゲット疾患を含むプロンプトを使用して二値予測を得る。
  • LLM のトークナイザに診断コードの説明をカバーする新しいトークンを追加し、追加トークン有無で比較(アブレーション)。
  • 追加の臨床前学習は不要;6 エポック訓練し、検証 PR-AUC で最良のチェックポイントを選択する。
  • タスク全体で PR-AUC(主要指標)と ROC-AUC(副指標)を用いて性能を報告する。

実験結果

リサーチクエスチョン

  • RQ1CPLLM は構造化 EHR の疾患予測において baseline(Logistic Regression、RETAIN、Med-BERT)より PR-AUC および ROC-AUC の改善を達成するか。
  • RQ2トークナイザの語彙に追加トークンを加えることがモデルの性能にどのような影響を与えるか。
  • RQ3CPLLM は ICD-9 ベースと ICD-10 ベースのデータセットおよび異なる疾患間でどのように性能を発揮するか。
  • RQ4構造化 EHR 予測タスクにおいて競争力のある性能には臨床ドメインの事前学習が必要か。

主な発見

TaskModelPR-AUCROC-AUC
Adult respiratory failureLogistic Regression35.05074.664
Adult respiratory failureRETAIN34.22 ± 0.29974.454 ± 0.173
Adult respiratory failureMed-BERT34.81 ± 0.20875.407 ± 0.073
Adult respiratory failureCPLLM-Llama235.962 ± 0.38076.407 ± 0.262
Adult respiratory failureCPLLM-BioMedLM35.494 ± 0.35275.975 ± 0.214
Chronic kidney diseaseLogistic Regression32.23083.016
Chronic kidney diseaseRETAIN31.407 ± 1.37981.692 ± 0.899
Chronic kidney diseaseMed-BERT33.37 ± 0.89183.12 ± 0.173
Chronic kidney diseaseCPLLM-Llama233.992 ± 1.26283.034 ± 0.511
Chronic kidney diseaseCPLLM-BioMedLM33.984 ± 1.07783.404 ± 0.429
Acute and unspecified renal failureLogistic Regression42.07577.486
Acute and unspecified renal failureRETAIN43.603 ± 0.40977.364 ± 0.394
Acute and unspecified renal failureMed-BERT42.237 ± 0.40877.427 ± 0.185
Acute and unspecified renal failureCPLLM-Llama245.442 ± 0.83978.504 ± 0.684
Acute and unspecified renal failureCPLLM-BioMedLM45.161 ± 1.62278.484 ± 0.403
  • CPLLM は三つのタスクと二つのデータセット全てで PR-AUC および ROC-AUC のベースラインを上回る。
  • Adult respiratory failure タスク:CPLLM-Llama2 PR-AUC 35.962% vs Logistic Regression 35.050%(絶対差 0.912%、相対 2.6%)。
  • Chronic kidney disease タスク:CPLLM-Llama2 PR-AUC 33.992% および ROC-AUC 83.034%;CPLLM-BioMedLM は PR-AUC 33.984%、ROC-AUC 83.404% とほぼ同等。
  • Acute and unspecified renal failure タスク:CPLLM-Llama2 PR-AUC 45.442% および ROC-AUC 78.504%。
  • アブレーションにより追加トークンが12指標中9指標で性能向上。
  • CPLLM は多くのベースラインよりも長いシーケンス処理能力を持つ(BioMedLM 1024 トークン、Llama2 4096 トークン)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。