[论文解读] Improving Large Language Models for Clinical Named Entity Recognition via Prompt Engineering
本文评估 GPT-3.5 和 GPT-4 在临床 NER 任务上的表现,并提出一个面向任务的提示框架(基线、标注指南、错误分析指令和少样本示例),提高了性能,尽管 BioClinicalBERT 仍然是最强基线。该方法在极少量训练数据下表现出潜力。
Objective: This study quantifies the capabilities of GPT-3.5 and GPT-4 for clinical named entity recognition (NER) tasks and proposes task-specific prompts to improve their performance. Materials and Methods: We evaluated these models on two clinical NER tasks: (1) to extract medical problems, treatments, and tests from clinical notes in the MTSamples corpus, following the 2010 i2b2 concept extraction shared task, and (2) identifying nervous system disorder-related adverse events from safety reports in the vaccine adverse event reporting system (VAERS). To improve the GPT models' performance, we developed a clinical task-specific prompt framework that includes (1) baseline prompts with task description and format specification, (2) annotation guideline-based prompts, (3) error analysis-based instructions, and (4) annotated samples for few-shot learning. We assessed each prompt's effectiveness and compared the models to BioClinicalBERT. Results: Using baseline prompts, GPT-3.5 and GPT-4 achieved relaxed F1 scores of 0.634, 0.804 for MTSamples, and 0.301, 0.593 for VAERS. Additional prompt components consistently improved model performance. When all four components were used, GPT-3.5 and GPT-4 achieved relaxed F1 socres of 0.794, 0.861 for MTSamples and 0.676, 0.736 for VAERS, demonstrating the effectiveness of our prompt framework. Although these results trail BioClinicalBERT (F1 of 0.901 for the MTSamples dataset and 0.802 for the VAERS), it is very promising considering few training samples are needed. Conclusion: While direct application of GPT models to clinical NER tasks falls short of optimal performance, our task-specific prompt framework, incorporating medical knowledge and training samples, significantly enhances GPT models' feasibility for potential clinical applications.
研究动机与目标
- 评估 GPT-3.5/GPT-4 在临床 NER 任务(i2b2 启发式和 VAERS)的零-shot 和少样本能力。
- 开发一个面向任务的提示框架,以融入医学知识和指南。
- 将 GPT 模型与 BioClinicalBERT 和传统方法(CRF)进行比较。
- 提供公开可获取的代码和数据集以便复现。
提出的方法
- 在两个临床 NER 任务(MTSamples/VAERS)上评估 GPT-3.5-turbo-0301 和 GPT-4-0314。
- 微调 BioClinicalBERT 并实现 CRF 作为监督学习基线。
- 开发一个四组件提示框架:基线任务描述、标注指南提示、错误分析指令和带注解的少-shot 示例。
- 在 exact-match 和 relaxed-match 标准下衡量精确度、召回率和 F1。
- 分析错误以理解边界和实体类型的挑战。
实验结果
研究问题
- RQ1GPT-3.5 和 GPT-4 在零-shot 和少-shot 设置下的临床 NER 任务表现如何?
- RQ2面向任务的提示框架是否能提升大型语言模型的临床 NER 表现?
- RQ3GPT 模型在 MTSamples 和 VAERS 数据集上与 BioClinicalBERT 和 CRF 相比如何?
- RQ4带注释示例(1-shot 与 5-shot)对 NER 表现有何影响?
主要发现
- BioClinicalBERT 仍然是最强的方法,在 MTSamples 上的 F1 为 0.901(relaxed),在 VAERS 上的 F1 为 0.802(relaxed)。
- 使用四组件提示框架时,GPT-3.5 和 GPT-4 显示显著提升,GPT-4 在 MTSamples 上达到 0.861(relaxed),在 VAERS 上达到 0.736(relaxed),使用 5-shot 示例。
- GPT-4 使用五-shot 提示在 MTSamples 上达到 0.593(exact)和 0.861(relaxed),在 VAERS 上达到 0.542(exact)和 0.736(relaxed)。
- GPT-3.5 使用五-shot 提示在 MTSamples 上实现 0.593(在 relaxed)和在 VAERS 上 0.736(relaxed)(研究中报告的 exact 数字)。
- GPT-3.5 和 GPT-4 在向 VAERS 添加指南、错误分析和示例提示时,与在 MTSamples 的绝对增益更大。
- 所提出的提示方法表明在少量注释数据下使用 LLMs 进行临床 NER 的可行性,尽管还没有在所有设置中超越 BioClinicalBERT。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。