[论文解读] Prompt engineering paradigms for medical applications: scoping review and recommendations for better practices
对114项医学提示工程研究(2022–2024)的范围性综述,覆盖 PD、PL 和 PT,并提出标准化术语与实践的建议。
Prompt engineering is crucial for harnessing the potential of large language models (LLMs), especially in the medical domain where specialized terminology and phrasing is used. However, the efficacy of prompt engineering in the medical domain remains to be explored. In this work, 114 recent studies (2022-2024) applying prompt engineering in medicine, covering prompt learning (PL), prompt tuning (PT), and prompt design (PD) are reviewed. PD is the most prevalent (78 articles). In 12 papers, PD, PL, and PT terms were used interchangeably. ChatGPT is the most commonly used LLM, with seven papers using it for processing sensitive clinical data. Chain-of-Thought emerges as the most common prompt engineering technique. While PL and PT articles typically provide a baseline for evaluating prompt-based approaches, 64% of PD studies lack non-prompt-related baselines. We provide tables and figures summarizing existing work, and reporting recommendations to guide future research contributions.
研究动机与目标
- 评估提示工程在医学领域中跨越 PD、PL 和 PT 的应用方式。
- 识别近期医学大语言模型研究中使用的主流范式、技术和术语。
- 为未来工作提升严格性、基线和报告规范提供建议。
提出的方法
- 对2022–2024年在医学领域应用提示工程的114项研究进行系统性范围性梳理。
- 按提示设计(PD)、提示学习(PL)和提示微调(PT)对研究进行分类。
- 对使用模式进行定量综述(如PD的普及程度、ChatGPT的使用、常见技术)。
- 提取基线做法和报告差距,以为建议提供依据。
实验结果
研究问题
- RQ1在医学应用中使用的主导提示工程范式有哪些(PD、PL、PT)?
- RQ2这些范式在各研究中的应用方式如何,评估所使用的基线是什么?
- RQ3常见的技术有哪些(如 Chain-of-Thought),使用了哪些大型语言模型?
- RQ4在报告和术语方面存在哪些差距,影响可比性与可重复性?
主要发现
- 提示设计(PD)是最常见的范式,在78项研究中出现。
- 共回顾了2022–2024年的114项研究。
- 在12篇论文中,PD、PL和PT的术语被互换使用。
- ChatGPT是最常用的LLM,有七篇论文将其用于处理敏感临床数据。
- Chain-of-Thought是最常见的提示工程技术。
- 64%的PD研究缺乏非提示相关的基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。