[论文解读] UltraMedical: Building Specialized Generalists in Biomedicine
本文提出 UltraMedical,一个大型生物医学指令数据集和一个开源工作流,用于将 Llama-3 模型微调为在生物医学领域的专门通才,得到生物医学奖励模型与迭代偏好学习的辅助。它报告了在医学基准上的竞争性表现并公开发布数据集和模型。
Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains and are moving towards more specialized areas. Recent advanced proprietary models such as GPT-4 and Gemini have achieved significant advancements in biomedicine, which have also raised privacy and security challenges. The construction of specialized generalists hinges largely on high-quality datasets, enhanced by techniques like supervised fine-tuning and reinforcement learning from human or AI feedback, and direct preference optimization. However, these leading technologies (e.g., preference learning) are still significantly limited in the open source community due to the scarcity of specialized data. In this paper, we present the UltraMedical collections, which consist of high-quality manual and synthetic datasets in the biomedicine domain, featuring preference annotations across multiple advanced LLMs. By utilizing these datasets, we fine-tune a suite of specialized medical models based on Llama-3 series, demonstrating breathtaking capabilities across various medical benchmarks. Moreover, we develop powerful reward models skilled in biomedical and general reward benchmark, enhancing further online preference learning within the biomedical LLM community. Datasets and models are available at https://github.com/TsinghuaC3I/UltraMedical
研究动机与目标
- 通过数据中心化微调和偏好学习,构建开源、GPT-4 水平的生物医学通才。
- 结合人工与合成提示,创建高质量、多样且复杂的生物医学指令。
- 开发奖励模型以实现在线偏好学习和迭代模型改进。
- 在标准医学基准和通用领域任务上评估 UltraMedical 语言模型,以表征专业化/通用化的权衡。
- 发布数据集和模型,促进生物医学生成式 AI 的社区协作。
提出的方法
- 通过合并人工和合成的医疗提示,总计约 410k 条指令,构建 UltraMedical。
- 对一个子集(约 100k 条)标注模型完成的回答和来自 GPT-4 的偏好以进行排名。
- 使用 UltraMedical(和 UltraMix)对 Llama-3-8B/70B 模型进行监督微调(SFT)。
- 使用每个提示八个候选的设置应用偏好学习技术(DPO、KTO),对选择/拒绝对进行二值化。
- 在 UltraMedical 偏好和其他 Ultra 系列数据上训练生物医学奖励模型(RM),以实现在线偏好学习和 BoN 采样。
- 进行迭代的在线偏好学习和 Best-of-N 采样,以逐步提升模型性能。

实验结果
研究问题
- RQ1通过数据集设计和偏好学习,开源生物医学大语言模型是否能够达到 GPT-4 级别的医学能力?
- RQ2将医学数据与通用领域数据混合对 SFT 和偏好优化在面向专门化通才方面的影响?
- RQ3奖励模型和在线偏好学习在提升基于 Llama-3 的模型的医学领域能力方面有多有效?
- RQ4在开发专门化生物医学通才时,医学任务表现和通用领域能力之间会出现哪些权衡?
- RQ5公开发布的 UltraMedical 数据集在多大程度上能够促成具有竞争力的公开生物医学大模型?
主要发现
- UltraMedical 8B/70B 模型在医学基准上取得前沿表现,缩小与专有模型的差距。
- 一个 70B 的 UltraMedical 模型在 MedQA-USMLE 上达到 86.5,在某些设定下可与更大规模的专有模型相比。
- 在 SFT 和 xPO 中混合医学与通用领域数据可提升医疗任务表现,同时引入一些通用领域的权衡。
- 在 UltraMedical 偏好上训练的奖励模型支持在线/迭代偏好学习和 BoN 采样,在医学和通用奖励基准上均获得具有竞争力的基于 RM 的结果。
- 在某些情况下,奖励模型的再排序性能可超越自一致性集合,但效果随模型规模而异。
- 公开发布 UltraMedical 数据集和模型,旨在加速社区在生物医学生成式 AI 领域的进展。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。