Skip to main content
QUICK REVIEW

[论文解读] Baichuan-M1: Pushing the Medical Capability of Large Language Models

Bingning Wang, Haizhou Zhao|ArXiv.org|Feb 18, 2025
Radiomics and Machine Learning in Medical Imaging被引用 5
一句话总结

Baichuan-M1 是一个面向医疗领域的专用大型语言模型,在从头开始训练时使用了 20 万亿个令牌的数据(其中包括 1T 医疗数据),以提升医疗能力,同时保持通用任务能力,Baichuan-M1-14B 已公布供公众使用。

ABSTRACT

The current generation of large language models (LLMs) is typically designed for broad, general-purpose applications, while domain-specific LLMs, especially in vertical fields like medicine, remain relatively scarce. In particular, the development of highly efficient and practical LLMs for the medical domain is challenging due to the complexity of medical knowledge and the limited availability of high-quality data. To bridge this gap, we introduce Baichuan-M1, a series of large language models specifically optimized for medical applications. Unlike traditional approaches that simply continue pretraining on existing models or apply post-training to a general base model, Baichuan-M1 is trained from scratch with a dedicated focus on enhancing medical capabilities. Our model is trained on 20 trillion tokens and incorporates a range of effective training methods that strike a balance between general capabilities and medical expertise. As a result, Baichuan-M1 not only performs strongly across general domains such as mathematics and coding but also excels in specialized medical fields. We have open-sourced Baichuan-M1-14B, a mini version of our model, which can be accessed through the following links.

研究动机与目标

  • 由于数据与知识的复杂性,强调在医学领域需要领域专用的大语言模型。
  • 描述一个从头开始的训练方法,聚焦医学能力,同时保持通用技能。
  • 展示数据收集、筛选、合成数据策略,以及分阶段/课程化训练以提升医学推理能力。

提出的方法

  • 从头开始训练 Baichuan-M1,专注于医疗知识与通用能力。
  • 采用三阶段预训练课程,医疗数据逐步增加,上下文窗口逐步增大。
  • 应用高级分词设计,结合通用词汇与医疗词汇(词汇量 133,120)。
  • 采用混合注意力架构,轮流全局注意力与滑动窗口注意力,以平衡效率与性能。
  • 融入合成数据生成管线(知识提取、问答、长链思维)和真实世界病例推理数据,提升医学推理。
  • 进行多阶段有监督微调,按照安全性与对齐目标,兼顾通用与医学指令。

实验结果

研究问题

  • RQ1如何从零开始构建一个大型语言模型,以最大化医学能力而不牺牲通用性能?
  • RQ2哪些数据策略(质量、提升、合成数据)最能提升医疗知识、推理和长上下文处理能力?
  • RQ3哪些架构选项(混合注意力、较大 KV 缓存、RoPE 基础)能在医学任务中带来更好的上下文学习和推理效率?

主要发现

模型Wiki ↓LMB ↓PIQA ↑Hella ↑Wino ↑ARC-e ↑ARC-c ↑SIQA ↑BoolQ ↑Avg ↑Niah ↑
Baichuan15.3914.9379.0161.7063.4777.9243.4645.8166.4062.5493.6
H.D.=12815.7215.6777.4160.6362.1777.0440.5943.3863.2060.6392.3
75% swa15.4314.8779.1260.1664.5978.0243.2446.2166.6462.5789.4
w/o swa17.1816.2876.7260.7764.0072.8642.6245.9763.5660.9393.3
w/o conv17.9716.9677.0458.7160.7576.1539.3242.8063.3459.7388.4
base=1e415.6715.0378.6161.6061.1579.2442.9245.3666.2962.0291.2
  • Baichuan-M1-14B 在一般任务(数学、编码)上表现强劲,在医学领域也表现卓越。
  • 去重 + 上采样的数据策略相比仅去重能提升性能。
  • 三阶段训练,随着医疗数据和上下文长度的增加,支持长上下文的医学推理与准确性。
  • 包含长链式思维生成的合成医疗数据提升推理能力并与医疗知识保持一致。
  • 混合全局与滑动窗口注意力设置在保持长上下文检索的同时,提升短上下文基准。
  • 公开发布 Baichuan-M1-14B-Base、Baichuan-M1-14B-Base(Instruct)供社区使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。