[논문 리뷰] Baichuan 2: Open Large-scale Language Models
Baichuan 2는 7B와 13B 매개변수를 가진 개방형 다국어 LLM을 2.6T 토큰으로 학습시켜, 공개 모델과의 경쟁력 있는 혹은 우수한 성능 및 의학·법학 분야에서 강한 도메인 성능을 달성합니다; 공개 체크포인트와 인간 선호에 맞춘 대화형 변형이 포함되어 있습니다.
Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
연구 동기 및 목표
- English 중심의 모델을 넘어서는 개방형 다국어 LLM의 필요성 해결
- 일반 및 도메인별 성능 향상을 위한 학습 데이터 및 모델 규모 확장
- 효율적인 대규모 사전 학습 및 정렬을 가능하게 하는 아키텍처 및 학습 최적화 개발
- 모델 체크포인트와 대화형 변형의 공개를 통해 안전성, 재현성 및 연구 협력 촉진
제안 방법
- Baichuan 2를 7B 및 13B 두 가지 크기로 제안하고 2.6T 토큰의 다국어 데이터에서 처음부터 학습
- SwiGLU 활성화, LayerNorm/RMSNorm, 메모리 효율적 어텐션, 확장된 토크나이저(125,696 vocab size)로 트랜스포머 아키텍처 수정
- Baichuan 2-7B는 RoPE, Baichuan 2-13B는 ALiBi를 사용하고 xFormers로 최적화된 어텐션 구현
- NormHead 및 Max-z 손실을 적용하여 학습 안정성과 추론의 강건성 확보
- 분산 학습(텐서 병렬성 및 ZeRO 기반 데이터 병렬성), 메모리 분할 기술 및 혼합 정밀도(BF16/Float32)로 효율성 제고
- 감정 맞춤형 SFT(감정 맞춤 미세조정) 및 PPO를 이용한 RLHF를 통해 채팅 모델의 안전성과 유용성 정렬 파이프라인 구현
실험 결과
연구 질문
- RQ1Baichuan 2가 일반 벤치마크에서 다른 개방형 규모의 LLM과 비교해 어떻게 성능을 보이는가?
- RQ2대규모 사전 학습 데이터가 다국어 및 도메인 특화 능력에 어떤 영향을 주는가?
- RQ3아키텍처 및 학습 최적화가 7B 및 13B 모델의 효율성 및 안정성에 유의미한 이점을 제공하는가?
- RQ4정렬 파이프라인(SFT + RLHF)이 안전하고 도움이 되는 채팅 모델을 생성하는 데 얼마나 효과적인가?
- RQ5의학 및 법학과 같은 수직 도메인에서 Baichuan 2의 비교 성능은 어떠한가?
주요 결과
| 모델 | C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | GSM8K | HumanEval | |
|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 | 89.99 | 69.51 | |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 | 57.77 | 52.44 | |
| LLaMA-7B | 27.10 | 35.10 | 26.75 | 27.81 | 28.17 | 32.38 | 9.78 | 11.59 | |
| LLaMA 2-7B | 28.90 | 45.73 | 31.38 | 25.97 | 26.53 | 39.16 | 16.22 | 12.80 | |
| MPT-7B | 27.15 | 27.93 | 26.00 | 26.54 | 24.83 | 35.20 | 8.64 | 14.02 | |
| Falcon-7B | 24.23 | 26.03 | 25.66 | 24.24 | 24.10 | 28.77 | 5.46 | - | |
| ChatGLM 2-6B (base) | 51.70 | 47.86 | - | - | - | - | 33.68 | 32.37 | - |
| Baichuan 1-7B | 42.80 | 42.30 | 44.02 | 36.34 | 34.44 | 32.48 | 9.17 | 9.20 | |
| Baichuan 2-7B-Base | 54.00 | 54.16 | 57.07 | 47.47 | 42.73 | 41.56 | 24.49 | 18.29 | |
| LLaMA-13B | 28.50 | 46.30 | 31.15 | 28.23 | 28.22 | 37.89 | 20.55 | 15.24 | |
| LLaMA 2-13B | 35.80 | 55.09 | 37.99 | 30.83 | 32.29 | 46.98 | 28.89 | 15.24 | |
| Vicuna-13B | 32.80 | 52.00 | 36.28 | 30.11 | 31.55 | 43.04 | 28.13 | 16.46 | |
| Chinese-Alpaca-Plus-13B | 38.80 | 43.90 | 33.43 | 34.78 | 35.46 | 28.94 | 11.98 | 16.46 | |
| XVERSE-13B | 53.70 | 55.21 | 58.44 | 44.69 | 42.54 | 38.06 | 18.20 | 15.85 | |
| Baichuan 1-13B-Base | 52.40 | 51.60 | 55.30 | 49.69 | 43.20 | 43.01 | 26.76 | 11.59 | |
| Baichuan 2-13B-Base | 58.10 | 59.17 | 61.97 | 54.33 | 48.17 | 48.78 | 52.77 | 17.07 |
- Baichuan 2-7B-Base와 Baichuan 2-13B-Base가 여러 벤치마크에서 동급 규모의 다른 모델들을 능가함(e.g., MMLU, CMMLU, GSM8K, HumanEval)
- Baichuan 2-7B-Base가 법률 및 의학 분야에서 강력한 점수를 달성하며, 종종 비-GPT-4 기준선을 상회하고 일부 중국어 작업에서 GPT-4에 근접
- Baichuan 2는 일반 벤치마크 및 도메인 벤치마크에서 Baichuan 1에 비해 상당한 향상을 보이며 GSM8K 및 HumanEval에서 거의 두 배에 달하는 결과를 보임
- Flores-101에서의 다국어 평가에서 Baichuan 2-7B-Base가 7개 작업에서 동료를 능가; Baichuan 2-13B-Base는 여러 과제에서 동료를 능가하며 중국어-영어 능력은 일부 쌍에서 GPT-4에 근접
- Code 및 수학 능력이 크게 향상되며 7B/13B 베이스가 해당 도메인에서 동료들보다 우수한 성능을 보임
- 이 연구는 200B에서 2.6T 토큰에 이르는 오픈 모델 체크포인트를 제공하여 학습 역학을 조명하고 향후 연구를 지원
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.