QUICK REVIEW

[論文レビュー] Baichuan 2: Open Large-scale Language Models

A. Y. Yang, Bin Xiao|arXiv (Cornell University)|Sep 19, 2023

Topic Modeling被引用数 125

ひとこと要約

Baichuan 2 は 7B および 13B パラメータのオープン・マルチリンガル LLM を提示し、2.6T トークンで訓練された結果、オープンモデルと競合するか優位を示し、医療と法の分野で強力なドメイン性能を示す。公開済みのチェックポイントと人間の好みに合わせたチャット variante を含む。

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

研究の動機と目的

英語中心のモデルを超えるオープン多言語 LLM のニーズに対応する。
一般的およびドメイン特異的な性能を向上させるために、訓練データとモデルサイズを拡大する。
効率的な大規模事前訓練とアラインメントを実現するアーキテクチャと訓練の最適化を開発する。
安全性、再現性、研究協力を促進するためにモデルチェックポイントとチャット variants を公開する。

提案手法

Baichuan 2 を 2 サイズ（7B および 13B）で、2.6T トークンのマルチリンガルデータからゼロショット訓練する。
SwiGLU 活性化、LayerNorm/RMSNorm、メモリ効率的なアテンション、および拡張トークナイザー（125,696 語彙サイズ）を備えた Transformer アーキテクチャを修正する。
Baichuan 2-7B には RoPE、Baichuan 2-13B には ALiBi を使用し、xFormers による最適化されたアテンションを適用する。
NormHead と Max-z ロスを適用して訓練を安定化させ、堅牢な推論を確保する。
効率のためにテンソル並列性と ZeRO ベースのデータ並列性を含む分散訓練、メモリ分割技術と混合精度（BF16/Float32）を活用する。
監視付きファインチューニング（SFT）と PPO を用いた RLHF によるアラインメントを実装し、複数カテゴリのプロンプトを持つ報酬モデルとチャットモデルの 350 回の方針最適化を行う。

実験結果

リサーチクエスチョン

RQ1Baichuan 2 は一般的なベンチマークで、同規模の他のオープンモデルと比較してどう性能を示すのか？
RQ2大規模プリトレーニングデータが多言語・ドメイン特異的能力にどのような影響を与えるのか？
RQ3アーキテクチャおよび訓練の最適化は 7B および 13B モデルの効率性と安定性に測定可能な利得を生むのか？
RQ4アラインメント・パイプライン（SFT + RLHF）は、安全で有用なチャットモデルの作成にどれだけ効果的か？
RQ5医療・法などの縦方向ドメインにおける Baichuan 2 の比較性能はどの程度か？

主な発見

モデル	C-Eval	MMLU	CMMLU	Gaokao	AGIEval	BBH	GSM8K	HumanEval
GPT-4	68.40	83.93	70.33	66.15	63.27	75.12	89.99	69.51
GPT-3.5 Turbo	51.10	68.54	54.06	47.07	46.13	61.59	57.77	52.44
LLaMA-7B	27.10	35.10	26.75	27.81	28.17	32.38	9.78	11.59
LLaMA 2-7B	28.90	45.73	31.38	25.97	26.53	39.16	16.22	12.80
MPT-7B	27.15	27.93	26.00	26.54	24.83	35.20	8.64	14.02
Falcon-7B	24.23	26.03	25.66	24.24	24.10	28.77	5.46	-
ChatGLM 2-6B (base)	51.70	47.86	-	-	-	33.68	32.37	-
Baichuan 1-7B	42.80	42.30	44.02	36.34	34.44	32.48	9.17	9.20
Baichuan 2-7B-Base	54.00	54.16	57.07	47.47	42.73	41.56	24.49	18.29
LLaMA-13B	28.50	46.30	31.15	28.23	28.22	37.89	20.55	15.24
LLaMA 2-13B	35.80	55.09	37.99	30.83	32.29	46.98	28.89	15.24
Vicuna-13B	32.80	52.00	36.28	30.11	31.55	43.04	28.13	16.46
Chinese-Alpaca-Plus-13B	38.80	43.90	33.43	34.78	35.46	28.94	11.98	16.46
XVERSE-13B	53.70	55.21	58.44	44.69	42.54	38.06	18.20	15.85
Baichuan 1-13B-Base	52.40	51.60	55.30	49.69	43.20	43.01	26.76	11.59
Baichuan 2-13B-Base	58.10	59.17	61.97	54.33	48.17	48.78	52.77	17.07

Baichuan 2-7B-Base および Baichuan 2-13B-Base は、複数のベンチマーク（例：MMLU、CMMLU、GSM8K、HumanEval）で他の同規模のオープンモデルを上回る。
Baichuan 2-7B-Base は法務・医療で強いスコアを示し、しばしば GPT-4 以外のベースラインを凌ぎ、中国語タスクのいくつかで GPT-4 に近づく。
Baichuan 2 は Baichuan 1 に対して一般およびドメインベンチマークで大幅な改善を示し、GSM8K および HumanEval でほぼ二倍近い結果を達成。
Flores-101 の多言語評価では Baichuan 2-7B-Base がすべての七つのタスクで同業他社を上回り、Baichuan 2-13B-Base はいくつかのタスクで同業他社を超え、中国語-英語能力がいくつかのペアで GPT-4 に近づく。
コードと数学能力は Baichuan 2 で大幅に改善され、7B/13B ベースはそれぞれの分野で多くの同時期モデルを凌ぐ。
本プロジェクトは 200B 〜 2.6T トークンのオープンモデルチェックポイントを提供し、訓練ダイナミクスを可視化し、さらなる研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。