[论文解读] Large Language Models Encode Clinical Knowledge
Flan-PaLM 在若干医疗问答基准上达到最先进水平;指令提示微调(Med-PaLM)提高了与临床医生的一致性,尽管与人类临床医生相比仍存在差距。
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
研究动机与目标
- 创建一个多样化、开放式基准(MultiMedQA),覆盖考试、研究和消费者查询的医疗问答。
- 开发并应用一个人工评估框架,以评估 LLM 回应的事实性、潜在伤害、偏见和有用性。
- 在基准上评估 PaLM 和 Flan-PaLM,并提出指令提示微调以使模型符合医疗领域的要求。
- 证明模型规模和提示策略能提升医疗知识回忆和推理能力,同时识别仍然存在的安全性和对齐差距。
提出的方法
- 通过整合六个现有医疗问答数据集并增添 HealthSearchQA(3375 个消费者搜索问题)来策划 MultiMedQA。
- 使用少样本、链式思维和自一致性提示来评估基准上的 PaLM 和 Flan-PaLM。
- 报告 Flan-PaLM 在 MedQA、MedMCQA、PubMedQA 和 MMLU 临床主题上的最新准确率(例如 MedQA 67.6%)。
- 引入指令提示微调以将 Flan-PaLM 对齐到医疗领域任务,产生在临床对齐方面更好的 Med-PaLM。
- 开发一个初步的人类评估框架,涵盖临床医生和普通用户在对科学共识的一致性、潜在伤害和偏见等维度的评估。
- 讨论关键局限性并提出未来研究方向,以提升医疗 LLM 的安全性和实用性。
实验结果
研究问题
- RQ1大型语言模型在多样化医疗问答任务中编码和利用临床知识的程度如何?
- RQ2指令提示微调能否使 LLM 与医疗领域要求对齐,以降低伤害并提升事实性和有用性?
- RQ3模型规模和提示策略如何影响 LLM 的理解、回忆和医疗推理?
- RQ4临床医生评估与普通用户评估与自动化基准在评估医疗 AI 输出方面有何异同?
主要发现
- Flan-PaLM 在 MedQA(67.6%)、MedMCQA(57.6%)、PubMedQA(79.0%)和 MMLU 临床主题上达到最先进的准确率。
- MedQA 的表现较先前的 SOTA 提升超过 17%。
- 临床医生评估:Flan-PaLM 的长篇回答中与科学共识的一致性为 61.9%,而 Med-PaLM 为 92.6%,临床医生生成的答案为 92.9%。
- 潜在伤害:Flan-PaLM 的回答中有潜在造成伤害的比例为 29.7%,而 Med-PaLM 为 5.8%,临床医生生成的答案为 6.5%。
- Med-PaLM,这一指令微调版本,在与医疗共识的对齐与降低伤害方面显示出鼓舞人心的结果,但在某些维度仍然不及临床医生。
- HealthSearchQA 引入 3,375 个面向消费者的医疗问题,以评估真实世界的问题解答能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。