Skip to main content
QUICK REVIEW

[논문 리뷰] Baichuan 2: Open Large-scale Language Models

A. Y. Yang, Bin Xiao|arXiv (Cornell University)|2023. 09. 19.
Topic Modeling인용 수 125
한 줄 요약

Baichuan 2는 7B와 13B 매개변수를 가진 개방형 다국어 LLM을 2.6T 토큰으로 학습시켜, 공개 모델과의 경쟁력 있는 혹은 우수한 성능 및 의학·법학 분야에서 강한 도메인 성능을 달성합니다; 공개 체크포인트와 인간 선호에 맞춘 대화형 변형이 포함되어 있습니다.

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

연구 동기 및 목표

  • English 중심의 모델을 넘어서는 개방형 다국어 LLM의 필요성 해결
  • 일반 및 도메인별 성능 향상을 위한 학습 데이터 및 모델 규모 확장
  • 효율적인 대규모 사전 학습 및 정렬을 가능하게 하는 아키텍처 및 학습 최적화 개발
  • 모델 체크포인트와 대화형 변형의 공개를 통해 안전성, 재현성 및 연구 협력 촉진

제안 방법

  • Baichuan 2를 7B 및 13B 두 가지 크기로 제안하고 2.6T 토큰의 다국어 데이터에서 처음부터 학습
  • SwiGLU 활성화, LayerNorm/RMSNorm, 메모리 효율적 어텐션, 확장된 토크나이저(125,696 vocab size)로 트랜스포머 아키텍처 수정
  • Baichuan 2-7B는 RoPE, Baichuan 2-13B는 ALiBi를 사용하고 xFormers로 최적화된 어텐션 구현
  • NormHead 및 Max-z 손실을 적용하여 학습 안정성과 추론의 강건성 확보
  • 분산 학습(텐서 병렬성 및 ZeRO 기반 데이터 병렬성), 메모리 분할 기술 및 혼합 정밀도(BF16/Float32)로 효율성 제고
  • 감정 맞춤형 SFT(감정 맞춤 미세조정) 및 PPO를 이용한 RLHF를 통해 채팅 모델의 안전성과 유용성 정렬 파이프라인 구현

실험 결과

연구 질문

  • RQ1Baichuan 2가 일반 벤치마크에서 다른 개방형 규모의 LLM과 비교해 어떻게 성능을 보이는가?
  • RQ2대규모 사전 학습 데이터가 다국어 및 도메인 특화 능력에 어떤 영향을 주는가?
  • RQ3아키텍처 및 학습 최적화가 7B 및 13B 모델의 효율성 및 안정성에 유의미한 이점을 제공하는가?
  • RQ4정렬 파이프라인(SFT + RLHF)이 안전하고 도움이 되는 채팅 모델을 생성하는 데 얼마나 효과적인가?
  • RQ5의학 및 법학과 같은 수직 도메인에서 Baichuan 2의 비교 성능은 어떠한가?

주요 결과

모델C-EvalMMLUCMMLUGaokaoAGIEvalBBHGSM8KHumanEval
GPT-468.4083.9370.3366.1563.2775.1289.9969.51
GPT-3.5 Turbo51.1068.5454.0647.0746.1361.5957.7752.44
LLaMA-7B27.1035.1026.7527.8128.1732.389.7811.59
LLaMA 2-7B28.9045.7331.3825.9726.5339.1616.2212.80
MPT-7B27.1527.9326.0026.5424.8335.208.6414.02
Falcon-7B24.2326.0325.6624.2424.1028.775.46-
ChatGLM 2-6B (base)51.7047.86----33.6832.37-
Baichuan 1-7B42.8042.3044.0236.3434.4432.489.179.20
Baichuan 2-7B-Base54.0054.1657.0747.4742.7341.5624.4918.29
LLaMA-13B28.5046.3031.1528.2328.2237.8920.5515.24
LLaMA 2-13B35.8055.0937.9930.8332.2946.9828.8915.24
Vicuna-13B32.8052.0036.2830.1131.5543.0428.1316.46
Chinese-Alpaca-Plus-13B38.8043.9033.4334.7835.4628.9411.9816.46
XVERSE-13B53.7055.2158.4444.6942.5438.0618.2015.85
Baichuan 1-13B-Base52.4051.6055.3049.6943.2043.0126.7611.59
Baichuan 2-13B-Base58.1059.1761.9754.3348.1748.7852.7717.07
  • Baichuan 2-7B-Base와 Baichuan 2-13B-Base가 여러 벤치마크에서 동급 규모의 다른 모델들을 능가함(e.g., MMLU, CMMLU, GSM8K, HumanEval)
  • Baichuan 2-7B-Base가 법률 및 의학 분야에서 강력한 점수를 달성하며, 종종 비-GPT-4 기준선을 상회하고 일부 중국어 작업에서 GPT-4에 근접
  • Baichuan 2는 일반 벤치마크 및 도메인 벤치마크에서 Baichuan 1에 비해 상당한 향상을 보이며 GSM8K 및 HumanEval에서 거의 두 배에 달하는 결과를 보임
  • Flores-101에서의 다국어 평가에서 Baichuan 2-7B-Base가 7개 작업에서 동료를 능가; Baichuan 2-13B-Base는 여러 과제에서 동료를 능가하며 중국어-영어 능력은 일부 쌍에서 GPT-4에 근접
  • Code 및 수학 능력이 크게 향상되며 7B/13B 베이스가 해당 도메인에서 동료들보다 우수한 성능을 보임
  • 이 연구는 200B에서 2.6T 토큰에 이르는 오픈 모델 체크포인트를 제공하여 학습 역학을 조명하고 향후 연구를 지원

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.