[论文解读] PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models
本文提出 PVminer 框架用于对患者自生成文本中的患者声音进行结构化提取,以及通过监督微调的大语言模型 PVminerLLM,在 Code、Sub-code 与 Span 提取上实现高 F1。
Motivation: Patient-generated text contains critical information about patients' lived experiences, social circumstances, and engagement in care, including factors that strongly influence adherence, care coordination, and health equity. However, these patient voice signals are rarely available in structured form, limiting their use in patient-centered outcomes research and clinical quality improvement. Reliable extraction of such information is therefore essential for understanding and addressing non-clinical drivers of health outcomes at scale. Results: We introduce PVminer, a benchmark for structured extraction of patient voice, and propose PVminerLLM, a supervised fine-tuned large language model tailored to this task. Across multiple datasets and model sizes, PVminerLLM substantially outperforms prompt-based baselines, achieving up to 83.82% F1 for Code prediction, 80.74% F1 for Sub-code prediction, and 87.03% F1 for evidence Span extraction. Notably, strong performance is achieved even with smaller models, demonstrating that reliable patient voice extraction is feasible without extreme model scale. These results enable scalable analysis of social and experiential signals embedded in patient-generated text. Availability and Implementation: Code, evaluation scripts, and trained LLMs will be released publicly. Annotated datasets will be made available upon request for research use. Keywords: Large Language Models, Supervised Fine-Tuning, Medical Annotation, Patient-Generated Text, Clinical NLP
研究动机与目标
- 将患者声音提取正规化为来自非结构化患者自生成文本的、受模式约束的结构化预测。
- 开发一个包含层级代码/子代码与 Span 绑定的多标签提取架构。
- 基准评估提示驱动的提取方法,并展示监督微调(PVminerLLM)的优势。
- 提供数据集、标注架构和评估协议,以实现对患者声音信号的可扩展分析。
提出的方法
- 将 PVminer 任务定义为对文本 Ground 成 Code、Sub-code、Span 的模式约束结构化提取。
- 开发一个含八个代码、26 个子代码的层级标注架构并具 Span 绑定(见附录 B)。
- 在零-shot 与少量示例设置下,对指令微调的大语言模型进行提示驱动提取基准评估,使用设计好的提示(Prompt 2)。
- 通过适配器(QLoRA)对指令微调的监督型大语言模型进行监督微调以实现对模式有效输出的掩码化目标,从而引入 PVminerLLM。
- 在来自多源的标注语料上进行训练,涵盖共计 1,137 条带多标签、Span 绑定注释的消息。
- 使用 Code、Sub-code、Span 指标进行评估,采用多标签的精确度/召回率/F1,以及一个放宽的 Token 级 Span 匹配标准。
实验结果
研究问题
- RQ1PVminer 架构是否能够从非结构化的患者自生成文本中可靠提取结构化的患者声音信号?
- RQ2提示驱动的方法是否足够,还是需要任务级监督以在模式约束下实现高保真提取?
- RQ3PVminerLLM 相较于提示基线在 Codes、Sub-codes 与 Spans 的性能提升是多少?
- RQ4模型在不同数据来源与消息方向(患者 vs 提供者)上的泛化能力如何?
主要发现
- 工程化提示在零-shot 下在 Code、Sub-code 与 Span 任务上提升了基线性能(例如 Code:8B 由 0.0 提升至 47.09;Span:8B 由 50.10 提升至 54.15)。
- 监督微调(PVminerLLM)带来显著提升,例如在 70B 模型下 Code F1 为 83.82%、Sub-code F1 为 80.74%、Span F1 为 87.03%。
- PVminerLLM 在各尺寸模型上均优于提示驱动方法,在 SDOH、共同决策与伙伴关系等领域获得较大提升。
- 两次示例提示揭示领域普遍性与变异性;PVminerLLM 能减轻社会经济和护理协调信号的低识别。
- PVminerLLM 在领域层面的表现强劲,例如在两次示例下 PartnershipPatient 的 F1 为 83.82%、PartnershipProvider 的 F1 为 84.21%,且在 SFT 之后分数更高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。