[論文レビュー] LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction
この論文は、LLMsを用いたEHRデータからのゼロショットおよびFew-shot病気予測を検討し、予測を洗練させるためのフィードバック駆動のプロンプト強化を行う二エージェント協力フレームワーク(予測器と批評家)を導入します。
Electronic health records (EHRs) contain valuable patient data for health-related prediction tasks, such as disease prediction. Traditional approaches rely on supervised learning methods that require large labeled datasets, which can be expensive and challenging to obtain. In this study, we investigate the feasibility of applying Large Language Models (LLMs) to convert structured patient visit data (e.g., diagnoses, labs, prescriptions) into natural language narratives. We evaluate the zero-shot and few-shot performance of LLMs using various EHR-prediction-oriented prompting strategies. Furthermore, we propose a novel approach that utilizes LLM agents with different roles: a predictor agent that makes predictions and generates reasoning processes and a critic agent that analyzes incorrect predictions and provides guidance for improving the reasoning of the predictor agent. Our results demonstrate that with the proposed approach, LLMs can achieve decent few-shot performance compared to traditional supervised learning methods in EHR-based disease predictions, suggesting its potential for health-oriented applications.
研究の動機と目的
- 構造化されたEHR訪問データ(疾病、薬剤、手技)をLLMベースの予測のための自然言語 Narratives に変換する実用性を評価する。
- EHR由来タスクに対するゼロショットおよびfew-shot prompting戦略を評価する。
- few-shot 診断精度を向上させる協調的な二エージェント枠組み(予測器と批評家)を提案・評価する。
提案手法
- ICDコードを名称にマッピングし、それらを接続詞で結ぶことで、構造化されたEHR訪問記録を非構造化 narratives に変換する。
- ゼロショット prompting 戦略を含む chain-of-thought、factor interactions、 prevalence information を評価する。
- prompts に少数のポジティブ/ネガティブ exemplars を挿入して few-shot prompting を評価する。
- EHR-CoAgent を二つのLLMで導入する:予測と推論を行う predictor と、誤 Prediction を分析し instructional feedback を提供する critic。
- critic のフィードバックをGPT-4 によって要約し、統合指示として predictor prompts に組み込む(instruction-enhanced prompting)。
- 従来のMLベースライン(Decision Tree、Logistic Regression、Random Forest)および単一エージェントLLMs(GPT-4、GPT-3.5)と、ゼロショット、few-shot、完全監視設定で比較する。
実験結果
リサーチクエスチョン
- RQ1LLMsは、EHR由来の narratives からゼロショットおよびfew-shot病気予測を実行できるか?
- RQ2 prompting戦略(CoT、factor interactions、prevalence)はEHR予測にどう影響するか?
- RQ3協調的な predictor-critic LLMフレームワークは、単一エージェントLLMsや従来のMLと比較してfew-shot病気予測を改善するか?
- RQ4 critic駆動の指示が、EHRベースの予測におけるモデル精度と推論品質に与える影響はどれくらいか?
主な発見
| Type | Model | MIMIC-III ACC | MIMIC-III Sensitivity | MIMIC-III Specificity | MIMIC-III F1 | CRADLE ACC | CRADLE Sensitivity | CRADLE Specificity | CRADLE F1 |
|---|---|---|---|---|---|---|---|---|---|
| Fully-Supervised | Decision Tree | 81.30 | 76.97 | 84.31 | 76.20 | 80.30 | 53.87 | 88.27 | 52.15 |
| Fully-Supervised | Logistic Regression | 79.70 | 70.48 | 83.56 | 73.18 | 80.90 | 58.34 | 86.15 | 59.74 |
| Fully-Supervised | Random Forest | 78.60 | 66.12 | 83.16 | 70.58 | 80.20 | 56.49 | 86.14 | 57.34 |
| Few-Shot (N=6) | Decision Tree | 71.10 | 53.14 | 77.62 | 51.16 | 31.90 | 54.81 | 25.99 | 31.71 |
| Few-Shot (N=6) | Logistic Regression | 58.70 | 73.40 | 53.44 | 56.78 | 53.30 | 53.95 | 53.13 | 48.16 |
| Few-Shot (N=6) | Random Forest | 69.70 | 62.88 | 72.18 | 63.61 | 65.00 | 51.50 | 68.43 | 51.04 |
| Zero-Shot | GPT-4 | 51.90 | 76.15 | 42.56 | 51.89 | 24.10 | 51.81 | 16.82 | 22.33 |
| Zero-Shot+ | GPT-4 | 62.90 | 59.30 | 64.29 | 58.58 | 30.00 | 53.25 | 23.76 | 29.67 |
| Few-Shot (N=6) | GPT-4 | 65.70 | 79.35 | 59.89 | 64.72 | 41.20 | 59.05 | 36.33 | 40.88 |
| EHR-CoAgent | GPT-4 | 79.10 | 73.11 | 81.43 | 73.88 | 70.00 | 62.88 | 71.72 | 60.21 |
| Zero-Shot | GPT-3.5 | 78.00 | 66.87 | 82.37 | 68.56 | 56.50 | 59.88 | 55.45 | 52.29 |
| Zero-Shot+ | GPT-3.5 | 72.40 | 50.00 | 80.37 | 42.00 | 62.60 | 57.62 | 63.96 | 54.40 |
| Few-Shot (N=6) | GPT-3.5 | 76.30 | 63.73 | 80.93 | 63.84 | 40.80 | 54.56 | 36.96 | 40.32 |
| EHR-CoAgent | GPT-3.5 | 79.30 | 74.49 | 80.98 | 71.59 | 66.60 | 58.31 | 68.83 | 55.83 |
- EHR-CoAgent は、ゼロショット設定での比較的強力なプロンプトにもかかわらず、few-shot シナリオで基準となるMLモデルや単一エージェントLLMsを上回ることが多く、GPT-4 は一般に GPT-3.5 よりも優れている。
- CRADLE で、EHR-CoAgent は Fully-trained MLモデルを上回る F1 が 60.21% を達成。
- MIMIC-III では、EHR-CoAgent は F1 が 73.88% に達し、Fully-trained の Decision Tree に匹敵し、Logistic Regression および Random Forest より優れる。
- ゼロショット prompting は注意深い prompts で modest な向上をもたらす(Zero-Shot+)、しかし few-shot のデモンストレーションが通常はパフォーマンスを高める。
- critic エージェントは predictor の推論の偏りとエラーを特定し、 instructional feedback を生成する。これを prompts に統合すると精度が大幅に改善する。
- 単一の LLM 予測器と比較して、 feedback-enhanced な EHR-CoAgent は指標全体で一貫した改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。