Skip to main content
QUICK REVIEW

[論文レビュー] Baichuan 2: Open Large-scale Language Models

A. Y. Yang, Bin Xiao|arXiv (Cornell University)|Sep 19, 2023
Topic Modeling被引用数 125
ひとこと要約

Baichuan 2 は 7B および 13B パラメータのオープン・マルチリンガル LLM を提示し、2.6T トークンで訓練された結果、オープンモデルと競合するか優位を示し、医療と法の分野で強力なドメイン性能を示す。公開済みのチェックポイントと人間の好みに合わせたチャット variante を含む。

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

研究の動機と目的

  • 英語中心のモデルを超えるオープン多言語 LLM のニーズに対応する。
  • 一般的およびドメイン特異的な性能を向上させるために、訓練データとモデルサイズを拡大する。
  • 効率的な大規模事前訓練とアラインメントを実現するアーキテクチャと訓練の最適化を開発する。
  • 安全性、再現性、研究協力を促進するためにモデルチェックポイントとチャット variants を公開する。

提案手法

  • Baichuan 2 を 2 サイズ(7B および 13B)で、2.6T トークンのマルチリンガルデータからゼロショット訓練する。
  • SwiGLU 活性化、LayerNorm/RMSNorm、メモリ効率的なアテンション、および拡張トークナイザー(125,696 語彙サイズ)を備えた Transformer アーキテクチャを修正する。
  • Baichuan 2-7B には RoPE、Baichuan 2-13B には ALiBi を使用し、xFormers による最適化されたアテンションを適用する。
  • NormHead と Max-z ロスを適用して訓練を安定化させ、堅牢な推論を確保する。
  • 効率のためにテンソル並列性と ZeRO ベースのデータ並列性を含む分散訓練、メモリ分割技術と混合精度(BF16/Float32)を活用する。
  • 監視付きファインチューニング(SFT)と PPO を用いた RLHF によるアラインメントを実装し、複数カテゴリのプロンプトを持つ報酬モデルとチャットモデルの 350 回の方針最適化を行う。

実験結果

リサーチクエスチョン

  • RQ1Baichuan 2 は一般的なベンチマークで、同規模の他のオープンモデルと比較してどう性能を示すのか?
  • RQ2大規模プリトレーニングデータが多言語・ドメイン特異的能力にどのような影響を与えるのか?
  • RQ3アーキテクチャおよび訓練の最適化は 7B および 13B モデルの効率性と安定性に測定可能な利得を生むのか?
  • RQ4アラインメント・パイプライン(SFT + RLHF)は、安全で有用なチャットモデルの作成にどれだけ効果的か?
  • RQ5医療・法などの縦方向ドメインにおける Baichuan 2 の比較性能はどの程度か?

主な発見

モデルC-EvalMMLUCMMLUGaokaoAGIEvalBBHGSM8KHumanEval
GPT-468.4083.9370.3366.1563.2775.1289.9969.51
GPT-3.5 Turbo51.1068.5454.0647.0746.1361.5957.7752.44
LLaMA-7B27.1035.1026.7527.8128.1732.389.7811.59
LLaMA 2-7B28.9045.7331.3825.9726.5339.1616.2212.80
MPT-7B27.1527.9326.0026.5424.8335.208.6414.02
Falcon-7B24.2326.0325.6624.2424.1028.775.46-
ChatGLM 2-6B (base)51.7047.86---33.6832.37-
Baichuan 1-7B42.8042.3044.0236.3434.4432.489.179.20
Baichuan 2-7B-Base54.0054.1657.0747.4742.7341.5624.4918.29
LLaMA-13B28.5046.3031.1528.2328.2237.8920.5515.24
LLaMA 2-13B35.8055.0937.9930.8332.2946.9828.8915.24
Vicuna-13B32.8052.0036.2830.1131.5543.0428.1316.46
Chinese-Alpaca-Plus-13B38.8043.9033.4334.7835.4628.9411.9816.46
XVERSE-13B53.7055.2158.4444.6942.5438.0618.2015.85
Baichuan 1-13B-Base52.4051.6055.3049.6943.2043.0126.7611.59
Baichuan 2-13B-Base58.1059.1761.9754.3348.1748.7852.7717.07
  • Baichuan 2-7B-Base および Baichuan 2-13B-Base は、複数のベンチマーク(例:MMLU、CMMLU、GSM8K、HumanEval)で他の同規模のオープンモデルを上回る。
  • Baichuan 2-7B-Base は法務・医療で強いスコアを示し、しばしば GPT-4 以外のベースラインを凌ぎ、中国語タスクのいくつかで GPT-4 に近づく。
  • Baichuan 2 は Baichuan 1 に対して一般およびドメインベンチマークで大幅な改善を示し、GSM8K および HumanEval でほぼ二倍近い結果を達成。
  • Flores-101 の多言語評価では Baichuan 2-7B-Base がすべての七つのタスクで同業他社を上回り、Baichuan 2-13B-Base はいくつかのタスクで同業他社を超え、中国語-英語能力がいくつかのペアで GPT-4 に近づく。
  • コードと数学能力は Baichuan 2 で大幅に改善され、7B/13B ベースはそれぞれの分野で多くの同時期モデルを凌ぐ。
  • 本プロジェクトは 200B 〜 2.6T トークンのオープンモデルチェックポイントを提供し、訓練ダイナミクスを可視化し、さらなる研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。