[論文レビュー] Baichuan 2: Open Large-scale Language Models
Baichuan 2 は 7B および 13B パラメータのオープン・マルチリンガル LLM を提示し、2.6T トークンで訓練された結果、オープンモデルと競合するか優位を示し、医療と法の分野で強力なドメイン性能を示す。公開済みのチェックポイントと人間の好みに合わせたチャット variante を含む。
Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
研究の動機と目的
- 英語中心のモデルを超えるオープン多言語 LLM のニーズに対応する。
- 一般的およびドメイン特異的な性能を向上させるために、訓練データとモデルサイズを拡大する。
- 効率的な大規模事前訓練とアラインメントを実現するアーキテクチャと訓練の最適化を開発する。
- 安全性、再現性、研究協力を促進するためにモデルチェックポイントとチャット variants を公開する。
提案手法
- Baichuan 2 を 2 サイズ(7B および 13B)で、2.6T トークンのマルチリンガルデータからゼロショット訓練する。
- SwiGLU 活性化、LayerNorm/RMSNorm、メモリ効率的なアテンション、および拡張トークナイザー(125,696 語彙サイズ)を備えた Transformer アーキテクチャを修正する。
- Baichuan 2-7B には RoPE、Baichuan 2-13B には ALiBi を使用し、xFormers による最適化されたアテンションを適用する。
- NormHead と Max-z ロスを適用して訓練を安定化させ、堅牢な推論を確保する。
- 効率のためにテンソル並列性と ZeRO ベースのデータ並列性を含む分散訓練、メモリ分割技術と混合精度(BF16/Float32)を活用する。
- 監視付きファインチューニング(SFT)と PPO を用いた RLHF によるアラインメントを実装し、複数カテゴリのプロンプトを持つ報酬モデルとチャットモデルの 350 回の方針最適化を行う。
実験結果
リサーチクエスチョン
- RQ1Baichuan 2 は一般的なベンチマークで、同規模の他のオープンモデルと比較してどう性能を示すのか?
- RQ2大規模プリトレーニングデータが多言語・ドメイン特異的能力にどのような影響を与えるのか?
- RQ3アーキテクチャおよび訓練の最適化は 7B および 13B モデルの効率性と安定性に測定可能な利得を生むのか?
- RQ4アラインメント・パイプライン(SFT + RLHF)は、安全で有用なチャットモデルの作成にどれだけ効果的か?
- RQ5医療・法などの縦方向ドメインにおける Baichuan 2 の比較性能はどの程度か?
主な発見
| モデル | C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | GSM8K | HumanEval |
|---|---|---|---|---|---|---|---|---|
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 | 89.99 | 69.51 |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 | 57.77 | 52.44 |
| LLaMA-7B | 27.10 | 35.10 | 26.75 | 27.81 | 28.17 | 32.38 | 9.78 | 11.59 |
| LLaMA 2-7B | 28.90 | 45.73 | 31.38 | 25.97 | 26.53 | 39.16 | 16.22 | 12.80 |
| MPT-7B | 27.15 | 27.93 | 26.00 | 26.54 | 24.83 | 35.20 | 8.64 | 14.02 |
| Falcon-7B | 24.23 | 26.03 | 25.66 | 24.24 | 24.10 | 28.77 | 5.46 | - |
| ChatGLM 2-6B (base) | 51.70 | 47.86 | - | - | - | 33.68 | 32.37 | - |
| Baichuan 1-7B | 42.80 | 42.30 | 44.02 | 36.34 | 34.44 | 32.48 | 9.17 | 9.20 |
| Baichuan 2-7B-Base | 54.00 | 54.16 | 57.07 | 47.47 | 42.73 | 41.56 | 24.49 | 18.29 |
| LLaMA-13B | 28.50 | 46.30 | 31.15 | 28.23 | 28.22 | 37.89 | 20.55 | 15.24 |
| LLaMA 2-13B | 35.80 | 55.09 | 37.99 | 30.83 | 32.29 | 46.98 | 28.89 | 15.24 |
| Vicuna-13B | 32.80 | 52.00 | 36.28 | 30.11 | 31.55 | 43.04 | 28.13 | 16.46 |
| Chinese-Alpaca-Plus-13B | 38.80 | 43.90 | 33.43 | 34.78 | 35.46 | 28.94 | 11.98 | 16.46 |
| XVERSE-13B | 53.70 | 55.21 | 58.44 | 44.69 | 42.54 | 38.06 | 18.20 | 15.85 |
| Baichuan 1-13B-Base | 52.40 | 51.60 | 55.30 | 49.69 | 43.20 | 43.01 | 26.76 | 11.59 |
| Baichuan 2-13B-Base | 58.10 | 59.17 | 61.97 | 54.33 | 48.17 | 48.78 | 52.77 | 17.07 |
- Baichuan 2-7B-Base および Baichuan 2-13B-Base は、複数のベンチマーク(例:MMLU、CMMLU、GSM8K、HumanEval)で他の同規模のオープンモデルを上回る。
- Baichuan 2-7B-Base は法務・医療で強いスコアを示し、しばしば GPT-4 以外のベースラインを凌ぎ、中国語タスクのいくつかで GPT-4 に近づく。
- Baichuan 2 は Baichuan 1 に対して一般およびドメインベンチマークで大幅な改善を示し、GSM8K および HumanEval でほぼ二倍近い結果を達成。
- Flores-101 の多言語評価では Baichuan 2-7B-Base がすべての七つのタスクで同業他社を上回り、Baichuan 2-13B-Base はいくつかのタスクで同業他社を超え、中国語-英語能力がいくつかのペアで GPT-4 に近づく。
- コードと数学能力は Baichuan 2 で大幅に改善され、7B/13B ベースはそれぞれの分野で多くの同時期モデルを凌ぐ。
- 本プロジェクトは 200B 〜 2.6T トークンのオープンモデルチェックポイントを提供し、訓練ダイナミクスを可視化し、さらなる研究を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。