Skip to main content
QUICK REVIEW

[论文解读] Baichuan 2: Open Large-scale Language Models

A. Y. Yang, Bin Xiao|arXiv (Cornell University)|Sep 19, 2023
Topic Modeling被引用 125
一句话总结

Baichuan 2 提供开放、跨语言的大模型,具有 7B 和 13B 参数,在 2.6T 令牌上训练,在开源模型中具备竞争力或更优的表现,并在医学和法律等领域具有强劲的性能;包含已发布的检查点和与人类偏好对齐的聊天变体。

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

研究动机与目标

  • 解决超越以英语为主的模型的开放多语言大模型需求。
  • 扩大训练数据量和模型规模,以提升通用和领域特定的性能。
  • 开发可实现高效大规模预训练与对齐的架构与训练优化。
  • 发布模型检查点和聊天变体,以促进安全性、可重复性和研究协作。

提出的方法

  • 提出 Baichuan 2,提供两个尺寸(7B 和 13B),在多语言数据上从头训练,使用 2.6T 令牌。
  • 对 Transformer 架构进行修改,使用 SwiGLU 激活、LayerNorm/RMSNorm、内存高效注意力,以及增强的分词器(词汇表大小 125,696)。
  • 对 Baichuan 2-7B 使用 RoPE,对 Baichuan 2-13B 使用 ALiBi,并通过 xFormers 优化注意力。
  • 应用 NormHead 和 Max-z 损失以稳定训练并确保鲁棒推理。
  • 采用张量并行和基于 ZeRO 的数据并行的分布式训练,以及内存切分技术和混合精度(BF16/Float32)以提高效率。
  • 通过有监督微调(SFT)再结合使用 PPO 的 RLHF 来实现对齐,使用带多类别提示的奖励模型,以及一个用于聊天模型的 350 次迭代的策略优化。

实验结果

研究问题

  • RQ1与其他开源规模的 LLM 相比,Baichuan 2 在通用基准测试中的表现如何?
  • RQ2大规模预训练数据对多语言和领域特定能力的影响是什么?
  • RQ3架构与训练优化是否在 7B 与 13B 模型上带来可衡量的效率与稳定性提升?
  • RQ4对齐流程(SFT + RLHF)在生成安全且有用的聊天模型方面有多有效?
  • RQ5Baichuan 2 在像医学与法律这样的垂直领域的相对表现如何?

主要发现

模型C-EvalMMLUCMMLUGaokaoAGIEvalBBHGSM8KHumanEval
GPT-468.4083.9370.3366.1563.2775.1289.9969.51
GPT-3.5 Turbo51.1068.5454.0647.0746.1361.5957.7752.44
LLaMA-7B27.1035.1026.7527.8128.1732.389.7811.59
LLaMA 2-7B28.9045.7331.3825.9726.5339.1616.2212.80
MPT-7B27.1527.9326.0026.5424.8335.208.6414.02
Falcon-7B24.2326.0325.6624.2424.1028.775.46-
ChatGLM 2-6B (base)51.7047.86----33.6832.37-
Baichuan 1-7B42.8042.3044.0236.3434.4432.489.179.20
Baichuan 2-7B-Base54.0054.1657.0747.4742.7341.5624.4918.29
LLaMA-13B28.5046.3031.1528.2328.2237.8920.5515.24
LLaMA 2-13B35.8055.0937.9930.8332.2946.9828.8915.24
Vicuna-13B32.8052.0036.2830.1131.5543.0428.1316.46
Chinese-Alpaca-Plus-13B38.8043.9033.4334.7835.4628.9411.9816.46
XVERSE-13B53.7055.2158.4444.6942.5438.0618.2015.85
Baichuan 1-13B-Base52.4051.6055.3049.6943.2043.0126.7611.59
Baichuan 2-13B-Base58.1059.1761.9754.3348.1748.7852.7717.07
  • Baichuan 2-7B-Base 与 Baichuan 2-13B-Base 在多项基准测试上优于同等规模的其他开源模型(例如 MMLU、CMMLU、GSM8K、HumanEval)。
  • Baichuan 2-7B-Base 在法律和医学领域取得了较强的分数,在某些中文任务上常常超越非 GPT-4 的基线,且接近 GPT-4。
  • Baichuan 2 在通用和领域基准测试中相较于 Baichuan 1 显示了显著提升,包括在 GSM8K 和 HumanEval 上几乎翻倍的结果。
  • Flores-101 的多语言评估显示 Baichuan 2-7B-Base 在全部七项任务上超越同侪;Baichuan 2-13B-Base 在若干任务上超越同侪,中文-英文能力在某些配对中接近 GPT-4。
  • 随着 Baichuan 2 的使用,代码和数学能力显著提升,7B/13B 基础模型在各自领域超越了许多同代模型。
  • 该项目提供从 200B 到 2.6T 令牌的开放模型检查点,以揭示训练动态并支持进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。