QUICK REVIEW

[논문 리뷰] Baichuan 2: Open Large-scale Language Models

A. Y. Yang, Bin Xiao|arXiv (Cornell University)|2023. 09. 19.

Topic Modeling인용 수 125

한 줄 요약

Baichuan 2는 7B와 13B 매개변수를 가진 개방형 다국어 LLM을 2.6T 토큰으로 학습시켜, 공개 모델과의 경쟁력 있는 혹은 우수한 성능 및 의학·법학 분야에서 강한 도메인 성능을 달성합니다; 공개 체크포인트와 인간 선호에 맞춘 대화형 변형이 포함되어 있습니다.

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

연구 동기 및 목표

English 중심의 모델을 넘어서는 개방형 다국어 LLM의 필요성 해결
일반 및 도메인별 성능 향상을 위한 학습 데이터 및 모델 규모 확장
효율적인 대규모 사전 학습 및 정렬을 가능하게 하는 아키텍처 및 학습 최적화 개발
모델 체크포인트와 대화형 변형의 공개를 통해 안전성, 재현성 및 연구 협력 촉진

제안 방법

Baichuan 2를 7B 및 13B 두 가지 크기로 제안하고 2.6T 토큰의 다국어 데이터에서 처음부터 학습
SwiGLU 활성화, LayerNorm/RMSNorm, 메모리 효율적 어텐션, 확장된 토크나이저(125,696 vocab size)로 트랜스포머 아키텍처 수정
Baichuan 2-7B는 RoPE, Baichuan 2-13B는 ALiBi를 사용하고 xFormers로 최적화된 어텐션 구현
NormHead 및 Max-z 손실을 적용하여 학습 안정성과 추론의 강건성 확보
분산 학습(텐서 병렬성 및 ZeRO 기반 데이터 병렬성), 메모리 분할 기술 및 혼합 정밀도(BF16/Float32)로 효율성 제고
감정 맞춤형 SFT(감정 맞춤 미세조정) 및 PPO를 이용한 RLHF를 통해 채팅 모델의 안전성과 유용성 정렬 파이프라인 구현

실험 결과

연구 질문

RQ1Baichuan 2가 일반 벤치마크에서 다른 개방형 규모의 LLM과 비교해 어떻게 성능을 보이는가?
RQ2대규모 사전 학습 데이터가 다국어 및 도메인 특화 능력에 어떤 영향을 주는가?
RQ3아키텍처 및 학습 최적화가 7B 및 13B 모델의 효율성 및 안정성에 유의미한 이점을 제공하는가?
RQ4정렬 파이프라인(SFT + RLHF)이 안전하고 도움이 되는 채팅 모델을 생성하는 데 얼마나 효과적인가?
RQ5의학 및 법학과 같은 수직 도메인에서 Baichuan 2의 비교 성능은 어떠한가?

주요 결과

모델	C-Eval	MMLU	CMMLU	Gaokao	AGIEval	BBH	GSM8K	HumanEval
GPT-4	68.40	83.93	70.33	66.15	63.27	75.12	89.99	69.51
GPT-3.5 Turbo	51.10	68.54	54.06	47.07	46.13	61.59	57.77	52.44
LLaMA-7B	27.10	35.10	26.75	27.81	28.17	32.38	9.78	11.59
LLaMA 2-7B	28.90	45.73	31.38	25.97	26.53	39.16	16.22	12.80
MPT-7B	27.15	27.93	26.00	26.54	24.83	35.20	8.64	14.02
Falcon-7B	24.23	26.03	25.66	24.24	24.10	28.77	5.46	-
ChatGLM 2-6B (base)	51.70	47.86	-	-	-	-	33.68	32.37	-
Baichuan 1-7B	42.80	42.30	44.02	36.34	34.44	32.48	9.17	9.20
Baichuan 2-7B-Base	54.00	54.16	57.07	47.47	42.73	41.56	24.49	18.29
LLaMA-13B	28.50	46.30	31.15	28.23	28.22	37.89	20.55	15.24
LLaMA 2-13B	35.80	55.09	37.99	30.83	32.29	46.98	28.89	15.24
Vicuna-13B	32.80	52.00	36.28	30.11	31.55	43.04	28.13	16.46
Chinese-Alpaca-Plus-13B	38.80	43.90	33.43	34.78	35.46	28.94	11.98	16.46
XVERSE-13B	53.70	55.21	58.44	44.69	42.54	38.06	18.20	15.85
Baichuan 1-13B-Base	52.40	51.60	55.30	49.69	43.20	43.01	26.76	11.59
Baichuan 2-13B-Base	58.10	59.17	61.97	54.33	48.17	48.78	52.77	17.07

Baichuan 2-7B-Base와 Baichuan 2-13B-Base가 여러 벤치마크에서 동급 규모의 다른 모델들을 능가함(e.g., MMLU, CMMLU, GSM8K, HumanEval)
Baichuan 2-7B-Base가 법률 및 의학 분야에서 강력한 점수를 달성하며, 종종 비-GPT-4 기준선을 상회하고 일부 중국어 작업에서 GPT-4에 근접
Baichuan 2는 일반 벤치마크 및 도메인 벤치마크에서 Baichuan 1에 비해 상당한 향상을 보이며 GSM8K 및 HumanEval에서 거의 두 배에 달하는 결과를 보임
Flores-101에서의 다국어 평가에서 Baichuan 2-7B-Base가 7개 작업에서 동료를 능가; Baichuan 2-13B-Base는 여러 과제에서 동료를 능가하며 중국어-영어 능력은 일부 쌍에서 GPT-4에 근접
Code 및 수학 능력이 크게 향상되며 7B/13B 베이스가 해당 도메인에서 동료들보다 우수한 성능을 보임
이 연구는 200B에서 2.6T 토큰에 이르는 오픈 모델 체크포인트를 제공하여 학습 역학을 조명하고 향후 연구를 지원

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.