[论文解读] Capabilities of GPT-4 on Medical Challenge Problems
该论文在 USMLE-style 考试和 MultiMedQA 基准测试上评估了 GPT-4(文本输入模式),结果显示其具备较强的开箱即用医学推理能力,校准性优于 GPT-3.5,并具有显著的定性能力,结果超越 GPT-3.5 并具备竞争力基线。
Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding and generation across various domains, including medicine. We present a comprehensive evaluation of GPT-4, a state-of-the-art LLM, on medical competency examinations and benchmark datasets. GPT-4 is a general-purpose model that is not specialized for medical problems through training or engineered to solve clinical tasks. Our analysis covers two sets of official practice materials for the USMLE, a three-step examination program used to assess clinical competency and grant licensure in the United States. We also evaluate performance on the MultiMedQA suite of benchmark datasets. Beyond measuring model performance, experiments were conducted to investigate the influence of test questions containing both text and images on model performance, probe for memorization of content during training, and study probability calibration, which is of critical importance in high-stakes applications like medicine. Our results show that GPT-4, without any specialized prompt crafting, exceeds the passing score on USMLE by over 20 points and outperforms earlier general-purpose models (GPT-3.5) as well as models specifically fine-tuned on medical knowledge (Med-PaLM, a prompt-tuned version of Flan-PaLM 540B). In addition, GPT-4 is significantly better calibrated than GPT-3.5, demonstrating a much-improved ability to predict the likelihood that its answers are correct. We also explore the behavior of the model qualitatively through a case study that shows the ability of GPT-4 to explain medical reasoning, personalize explanations to students, and interactively craft new counterfactual scenarios around a medical case. Implications of the findings are discussed for potential uses of GPT-4 in medical education, assessment, and clinical practice, with appropriate attention to challenges of accuracy and safety.
研究动机与目标
- 评估 GPT-4 在官方 USMLE 实践材料(Steps 1-3)和 MultiMedQA 基准套件上的性能。
- 在零-shot 和少量示例提示下,将 GPT-4 与 GPT-3.5 及公开基线(例如 ChatGPT、Flan-PaLM 540B、Med-PaLM)进行比较。
- 分析诸如媒体题目、预测概率的校准以及训练数据潜在记忆化等因素。
- 检视诸如对医学推理的解释、反事实情景生成等定性能力。
- 讨论对医学教育、评估和临床实践的影响,以及安全性和准确性方面的考量。
提出的方法
- 使用文本输入模式的 GPT-4,采用零-shot 以及遵循既定模板的随机选择的 5-shot 提示。
- 在六个医学数据集上进行评估,包括 USMLE Sample Exam、USMLE Self Assessments、MedQA、PubMedQA、MedMCQA 和 MMLU(Medical components)。
- 在有数据时,将 GPT-4 与 GPT-3.5 以及 Flan-PaLM 540B 和 Med-PaLM 的公开结果进行比较。
- 评估有无图像的文本提问的表现,并通过对多项选择题的概率估计来分析校准。
- 通过黑箱 MELD(Memorization effects Levenshtein detector)启发式方法调查记忆化,并讨论潜在的数据泄露。
- 探索提示策略(链式推理、精选示例)的潜在优势与局限性,以及模型对齐/安全调优的影响。
实验结果
研究问题
- RQ1GPT-4 在官方 USMLE 实践题(Steps 1-3)上的表现与 GPT-3.5 及其他医学大型语言模型基线相比如何?
- RQ2GPT-4 在 MultiMedQA 基准套件(涵盖 MedQA、PubMedQA、MedMCQA 和 MMLU)的表现如何?
- RQ3GPT-4 如何处理仅文本的问题与引用图像的问题,其对预测概率的校准如何?
- RQ4GPT-4 的输出中是否有考试内容记忆的证据,这对基准测试有何影响?
- RQ5当 GPT-4 解释推理或参与互动的反事实医学病例情景时,出现了哪些定性能力?
主要发现
- GPT-4 在测试样本上超过 USMLE 及格阈值超过 20 分,在 USMLE 材料上比 GPT-3.5 高出超过 30 个百分点。
- 在 USMLE 自我评估和样题测试中,GPT-4 在零-shot 和 5-shot 设置下的准确率显著高于 GPT-3.5(例如,自我评估平均 86.65% 对比 53.61%)。
- GPT-4 在 MultiMedQA 数据集中的大多数任务上优于 GPT-3.5 与 Flan-PaLM 540B,PubMedQA 除外,其性能不高于某些基线。
- GPT-4(文本仅输入)在引用媒体但未传递给模型的问题上也显示出强劲表现,在此类题目上达到 70-80% 的准确率,文本处理仍然可获得稳健结果。
- GPT-4 在多项选择题上展现出显著更好的校准,概率估计与实际正确率接近(例如,预测 0.96 对应某些数据点的正确率为 93%)。
- 基础 GPT-4(GPT-4-base)在若干数据集上比对齐发布版本提升 3-5 个百分点,表明面向对齐的安全调优可能影响原始性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。