[论文解读] Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping
本文提出一种零样本疾病表型分析方法,使用带检索增强生成(retrieval-augmented generation)和 MapReduce 处理完整的 EHR 笔记,应用于肺动脉高压,优于基于医生规则的表型。
Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.
研究动机与目标
- 推动在广泛的 EHR 数据上进行可扩展、准确的疾病表型分析,且无需针对罕见疾病手工制定规则。
- 引入检索增强生成(RAG)管道,从完整的病历中预先识别与疾病相关的片段。
- 评估基于 MapReduce 的聚合,将每个片段的推断汇总为患者诊断。
- 在未见数据上,将基于大语言模型的表型分析与医生开发的结构化表型基线进行比较。
提出的方法
- 使用正则表达式(Regex)从患者笔记中获取相关的2,048-token 片段。
- 将获取的片段输入到大型语言模型(PaLM-2 变体)进行零-shot 诊断。
- 应用 MapReduce 对每个片段并行查询并生成逐片段输出来。
- 比较两种聚合策略:基于LLM 的聚合和最大化(Max)函数聚合。
- 尝试包括思路链(chain-of-thought)和引导(steering)的提示设计,以在历史信号与当前 PH 信号之间取得平衡。
- 排除 ECHO/CT 相关片段以减少误阳性并提高性能。
实验结果
研究问题
- RQ1检索增强的LLM管线是否能够分析整个患者记录,在没有特定疾病规则的情况下识别 PH?
- RQ2基于 MapReduce 的聚合是否提升逐片段推断汇总为患者级表型的鲁棒性和准确性?
- RQ3在 F1 分数方面,基于LLM的表型分析与传统的由 SME 开发的结构化表型在 PH 上的比较如何?
- RQ4哪些提示设计和检索排除条件能获得最佳的零样本 PH 诊断性能?
主要发现
| 模型 | 聚合 | ECHO 排除 | F1 分数 |
|---|---|---|---|
| Structured | — | — | 0.62 |
| LLM | Max | Regex | 0.73 |
| LLM | Max | Prompt Amended | 0.75 |
| LLM | LLM | Prompt Amended | 0.72 |
- 基于LLM的表型在测试集上的 F1 通常比结构化表型高出 18%–21%。
- 最佳配置(Max 聚合配合 Regex 排除)在测试集上的 F1 为 0.73。
- 包括提示修改与 ECHO/CT 排除在验证集上提升了性能,指导最终设计选择。
- 检索到的笔记涵盖 29 种不同的笔记类型,强调跨笔记类型检索对 PH 识别的重要性。
- 验证集到测试集的 F1 有一定下降(0.05–0.10),可能与队列大小和对训练数据的过拟合有关。
- 在实际应用中,基于LLM的方法确认患 PH 的患者数量大约是结构化表型的两倍。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。