Skip to main content
QUICK REVIEW

[论文解读] Zero-Shot Clinical Trial Patient Matching with LLMs

Michael Wornow, Alejandro Lozano|arXiv (Cornell University)|Feb 5, 2024
Radiomics and Machine Learning in Medical Imaging被引用 9
一句话总结

基于 GPT-4 的零 shot 系统从非结构化笔记中评估患者是否符合试验标准,以匹配试验准入条件,在 2018 n2c2 队列上达到最新水平,并提供高成本效益、可检索增强的提示与可解释的理由。

ABSTRACT

Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market. Today, identifying patients who meet a trial's eligibility criteria is highly manual, taking up to 1 hour per patient. Automated screening is challenging, however, as it requires understanding unstructured clinical text. Large language models (LLMs) offer a promising solution. In this work, we explore their application to trial matching. First, we design an LLM-based system which, given a patient's medical history as unstructured clinical text, evaluates whether that patient meets a set of inclusion criteria (also specified as free text). Our zero-shot system achieves state-of-the-art scores on the n2c2 2018 cohort selection benchmark. Second, we improve the data and cost efficiency of our method by identifying a prompting strategy which matches patients an order of magnitude faster and more cheaply than the status quo, and develop a two-stage retrieval pipeline that reduces the number of tokens processed by up to a third while retaining high performance. Third, we evaluate the interpretability of our system by having clinicians evaluate the natural language justifications generated by the LLM for each eligibility decision, and show that it can output coherent explanations for 97% of its correct decisions and 75% of its incorrect ones. Our results establish the feasibility of using LLMs to accelerate clinical trial operations.

研究动机与目标

  • 将使用零-shot LLM 推理应用于非结构化的电子病历文本,以减少人工、耗时的试验资格筛查。
  • 在不使用训练数据或上下文示例的情况下,在 2018 n2c2 队列选择基准上展示最先进的性能。
  • 通过提示策略和两阶段检索流程提升数据与成本效率。
  • 通过让临床医生评估由 LLM 为资格决定生成的自然语言推理来评估可解释性。

提出的方法

  • 评估 GPT-3.5、GPT-4 以及开源 LLM(Llama-2-70b、Mixtral-8x7B)在资格评估上的零-shot 性能。
  • 比较提示策略:ACAN、ACIN、ICAN、ICIN 以确定信息负载和效率。
  • 使用小型嵌入模型(BGE 或 MiniLM)实现两阶段检索管线,在提示评估模型之前对笔记进行预筛选。
  • 使用结构化提示输出(JSON),包括 Criterion、Medications、Rationale、Decision、Confidence 以实现解析与可解释性。
  • 通过输入前 k 个检索片段而非整份笔记,研究检索令牌效率。
  • 通过临床医生对 LLM 为正确与错误决策生成的推理进行评估以评估可解释性。
Figure 1: We explore zero-shot clinical trial patient matching with LLMs under two system designs: (a) We inject the patient’s entire set of notes into a prompt input into an Assessment LLM (e.g. GPT-4) for evaluation. (b) In our two-stage retrieval pipeline, we first query the top- $k$ most relevan
Figure 1: We explore zero-shot clinical trial patient matching with LLMs under two system designs: (a) We inject the patient’s entire set of notes into a prompt input into an Assessment LLM (e.g. GPT-4) for evaluation. (b) In our two-stage retrieval pipeline, we first query the top- $k$ most relevan

实验结果

研究问题

  • RQ1在不进行微调的情况下,零-shot LLM 是否能准确地依据自由文本试验标准评估患者资格?
  • RQ2哪些提示策略能在最小化标记、成本和 API 调用的同时最大化准确性?
  • RQ3基于检索的预筛选步骤是否在不牺牲性能的前提下降低标记使用?
  • RQ4LLM 生成的推理是否连贯且对人类评审者有临床上的用处?
  • RQ5零-shot 模型与 n2c2 2018 队列的先前最先进水平相比如何?

主要发现

  • GPT-4 在 2018 n2c2 队列上实现了宏观 F1 和微观 F1 的最先进水平(零-shot 评估中较 prior SOTA 提升了 +6 Macro-F1 和 +2 Micro-F1)。
  • 提示策略很重要:提高准则定义的具体性可提升准确性(例如,GPT-4 在改进的准则下的 Macro-F1 根据策略不同在 0.81–0.93 范围内)。
  • ACIN 提示(一个提示中包含所有准则,逐条笔记)提供最佳性价比,在降低令牌、API 调用和成本约一个数量级的情况下仍保持高性能,相对于其他策略。
  • 使用 MiniLM 或 BGE 的小型嵌入模型的两阶段检索管线可使令牌使用减少超过三分之一,同时在某些指标上超越先前的最先进水平。
  • 临床医生评估显示,当决策正确时,GPT-4 生成的推理有 89% 的完全正确;当决策错误时,有 67%(其中 8% 部分正确、25% 错误),这表明具有较强的可解释性和有用的解释,尽管并非完美。
  • 基于检索的方法可以降低成本,但相比于直接获取整份笔记,绩效可能有轻微差距;最佳提示与分块可缓解。
  • 该系统展示了在无需模型微调或上下文示例的情况下,进行更快、成本更低、可扩展的临床试验患者匹配的潜力。
Figure 2: Model performance increases as the number ( $k$ ) of retrieved documents increases, but quickly plateaus with diminishing returns. We test $k\in\{1,3,5,10\}$ . Each subfigure is a different prompting strategy. The y-axis is model performance (Macro/Micro-F1) and the x-axis is the total num
Figure 2: Model performance increases as the number ( $k$ ) of retrieved documents increases, but quickly plateaus with diminishing returns. We test $k\in\{1,3,5,10\}$ . Each subfigure is a different prompting strategy. The y-axis is model performance (Macro/Micro-F1) and the x-axis is the total num

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。