QUICK REVIEW

[논문 리뷰] Baichuan-M1: Pushing the Medical Capability of Large Language Models

Bingning Wang, Haizhou Zhao|ArXiv.org|2025. 02. 18.

Radiomics and Machine Learning in Medical Imaging인용 수 5

한 줄 요약

Baichuan-M1은 20조 토큰(의료 데이터 1조 포함)으로 처음부터 학습된 의료 전문 LLM으로 의료 역량을 강화하면서 일반 작업도 유지하고, Baichuan-M1-14B가 공개 사용을 위해 출시되었습니다.

ABSTRACT

The current generation of large language models (LLMs) is typically designed for broad, general-purpose applications, while domain-specific LLMs, especially in vertical fields like medicine, remain relatively scarce. In particular, the development of highly efficient and practical LLMs for the medical domain is challenging due to the complexity of medical knowledge and the limited availability of high-quality data. To bridge this gap, we introduce Baichuan-M1, a series of large language models specifically optimized for medical applications. Unlike traditional approaches that simply continue pretraining on existing models or apply post-training to a general base model, Baichuan-M1 is trained from scratch with a dedicated focus on enhancing medical capabilities. Our model is trained on 20 trillion tokens and incorporates a range of effective training methods that strike a balance between general capabilities and medical expertise. As a result, Baichuan-M1 not only performs strongly across general domains such as mathematics and coding but also excels in specialized medical fields. We have open-sourced Baichuan-M1-14B, a mini version of our model, which can be accessed through the following links.

연구 동기 및 목표

의료 분야의 데이터와 지식 복잡성으로 인한 도메인 특화 LLM의 필요성을 제시한다.
처음부터 의료 역량에 집중하면서 일반 기술을 보존하는 학습 접근 방식을 설명한다.
데이터 수집, 필터링, 합성 데이터 전략, 커리큘럼식 교육을 통해 의료 추론을 향상시키는 방법을 보여준다.

제안 방법

의료 지식과 일반 역량에 집중하여 처음부터 Baichuan-M1을 학습시킨다.
의료 데이터가 점점 증가하고 더 긴 맥락 창을 사용하는 3단계 사전 학습 커리큘럼을 활용한다.
일반 어휘와 의료 어휘를 결합한 고급 토크나이저 설계를 적용한다(어휘 크기 133,120).
글로벌 주의와 슬라이딩 윈도우 주의를 교차로 사용하는 혼합 주의 구조를 도입하여 효율성과 성능의 균형을 달성한다.
의료 추론 강화를 위해 지식 추출, QA, 긴 체인-오브-사고(CoT) 생성의 합성 데이터 파이프라인과 실제 사례 추론 데이터를 통합한다.
안전성과 정렬 목표를 준수하는 일반 및 의료 지시에 대한 다단계 감독 하에 지도 학습 미세조정을 수행한다.

실험 결과

연구 질문

RQ1의료 기능을 최대화하면서 일반 성능을 희생하지 않고 처음부터 대형 언어 모델을 어떻게 구축할 수 있는가?
RQ2데이터 전략(품질, 업샘플링, 합성 데이터)이 의료 지식, 추론 및 긴 맥락 처리에 어떤 개선을 가장 잘 제공하는가?
RQ3하이브리드 주의, 더 큰 KV 캐시, RoPE 기반 등 어떤 아키텍처 선택이 의료 작업의 맥락 학습 및 추론 효율성을 더 잘 제공하는가?

주요 결과

모델	위키 ↓	LMB ↓	PIQA ↑	Hella ↑	Wino ↑	ARC-e ↑	ARC-c ↑	SIQA ↑	BoolQ ↑	Avg ↑	Niah ↑
Baichuan	15.39	14.93	79.01	61.70	63.47	77.92	43.46	45.81	66.40	62.54	93.6
H.D.=128	15.72	15.67	77.41	60.63	62.17	77.04	40.59	43.38	63.20	60.63	92.3
75% swa	15.43	14.87	79.12	60.16	64.59	78.02	43.24	46.21	66.64	62.57	89.4
w/o swa	17.18	16.28	76.72	60.77	64.00	72.86	42.62	45.97	63.56	60.93	93.3
w/o conv	17.97	16.96	77.04	58.71	60.75	76.15	39.32	42.80	63.34	59.73	88.4
base=1e4	15.67	15.03	78.61	61.60	61.15	79.24	42.92	45.36	66.29	62.02	91.2

Baichuan-M1-14B는 일반 작업(수학, 코딩)에서 강력한 성능을 보이고 의료 도메인에서도 뛰어나다.
중복 제거에 업샘플링 데이터 전략이 중복 제거만 사용하는 경우보다 성능을 향상시킨다.
의료 데이터와 맥락 길이가 증가하는 3단계 학습은 긴 맥락의 의료 추론과 정확도를 지원한다.
합성 의료 데이터와 긴 체인 사고(CoT) 생성을 통한 데이터는 추론 능력을 향상시키고 의료 지식과 일치한다.
하이브리드 글로벌 및 슬라이딩 윈도우 주의 설정은 긴 맥락 검색을 유지하면서 짧은 맥락 벤치마크를 향상시킨다.
커뮤니티 사용을 위한 Baichuan-M1-14B-Base, Baichuan-M1-14B-Base (Instruct)의 공개 배포가 이루어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.