[论文解读] Self-Verification Improves Few-Shot Clinical Information Extraction
该论文提出一个自我验证(SV)框架,使用同一 LLM 的多次调用、带有不同提示,以提取临床信息、将输出以证据为基础进行锚定,并修剪不准确之处,从而改善少样本的性能并产生可解释的基于区间的锚定。
Extracting patient information from unstructured text is a critical task in health decision-support and clinical research. Large language models (LLMs) have shown the potential to accelerate clinical curation via few-shot in-context learning, in contrast to supervised learning which requires much more costly human annotations. However, despite drastic advances in modern LLMs such as GPT-4, they still struggle with issues regarding accuracy and interpretability, especially in mission-critical domains such as health. Here, we explore a general mitigation framework using self-verification, which leverages the LLM to provide provenance for its own extraction and check its own outputs. This is made possible by the asymmetry between verification and generation, where the latter is often much easier than the former. Experimental results show that our method consistently improves accuracy for various LLMs in standard clinical information extraction tasks. Additionally, self-verification yields interpretations in the form of a short text span corresponding to each output, which makes it very efficient for human experts to audit the results, paving the way towards trustworthy extraction of clinical information in resource-constrained scenarios. To facilitate future research in this direction, we release our code and prompts.
研究动机与目标
- 解决在医疗领域中使用 LLMs 进行少样本临床信息提取时存在的有限准确性与可解释性问题。
- 提出一个自我验证管道,依次对 LLM 输出进行细化、锚定和修剪。
- 证明 SV 在多个任务和模型上提升提取准确性,同时提供可解释的证据锚定。
- 发布代码和提示,以促进未来研究。
提出的方法
- 使用同一 LLM、不同提示的四步 SV 流程:原始提取、Omission(省略/遗漏)以发现缺失元素、证据锚定以定位文本片段、以及 Prune(修剪)以消除不准确之处。
- 对于较长的输入,重复进行省略步骤,迭代最多五次,直到不再发现新的省略项。
- 锚定片段为每个提取项提供文本证据,以便进行人工审核。
- 将 SV 与单一大提示基线进行比较,并对多项任务和模型评估宏 F1、召回率和精确度。
- 提示及确切提示在 GitHub 仓库中提供。

实验结果
研究问题
- RQ1自我验证是否能在跨不同模型的少样本临床信息提取任务中提升提取准确性?
- RQ2SV 是否能够提供可解释的锚定,帮助人工审核而不牺牲性能?
- RQ3各个 SV 组件(Omission、Evidence、Prune)如何对各任务的整体性能产生影响?
- RQ4在模型或任务层面,是否存在 SV 效果和锚定质量的模式依赖?
主要发现
- SV 在各任务和模型上持续提升提取准确性(平均 F1 提升约为 0.056)。
- GPT-4 显示显著提升(例如,临床试验组的 F1 提升 >0.1,药物状态的提升 >0.3)。
- 消融结果显示,Omission 提高召回率,Prune 提高精确度,完整的 SV 同时提升两者以改善 F1。
- SV 产生可解释的锚定区间,与人工判断高度一致(例如 GPT-4 的人类注释干预项的区间覆盖率达到 93%)。
- 对于较长的输入,Omission 更有可能为 F1 增益做出贡献,而 Prune 保持了精确度的提升;完整的 SV 提供了更均衡的提升。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。