[論文レビュー] GLM-130B: An Open Bilingual Pre-trained Model
GLM-130Bは130Bパラメータの英中双方向前訓練モデルで、英語ベンチマークの多くでGPT-3を、中国語ではERNIE Titan 3.0を上回るようにオープンソース化され、INT4量子化により手頃なGPU上で推論を可能にします。
We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 (davinci) and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and engineering challenges, particularly on loss spikes and divergence. In this paper, we introduce the training process of GLM-130B including its design choices, training strategies for both efficiency and stability, and engineering efforts. The resultant GLM-130B model offers significant outperformance over GPT-3 175B (davinci) on a wide range of popular English benchmarks while the performance advantage is not observed in OPT-175B and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN 3.0 260B -- the largest Chinese language model -- across related benchmarks. Finally, we leverage a unique scaling property of GLM-130B to reach INT4 quantization without post training, with almost no performance loss, making it the first among 100B-scale models and more importantly, allowing its effective inference on 4$ imes$RTX 3090 (24G) or 8$ imes$RTX 2080 Ti (11G) GPUs, the most affordable GPUs required for using 100B-scale models. The GLM-130B model weights are publicly accessible and its code, training logs, related toolkit, and lessons learned are open-sourced at \url{https://github.com/THUDM/GLM-130B/}.
研究の動機と目的
- 透明性と実用性を持つオープンな100B-scaleバイリンガルLLMのトレーニングを実証する。
- GLM-130BがGPT-3を上回り、英語ベンチマークでPaLM 540Bと競合することを示す。
- GLM-130Bを中国語ベンチマークで評価し、ERNIE Titan 3.0 260Bと比較する。
- 手頃な推論を可能にするためのトレーニング安定性とプラットフォーム対応戦略を開発する。
提案手法
- [MASK]および[gMASK]トークンを用いたGLMの双方向自己回帰ブランク補充目的を採用する。
- DeepNormベースのPost-LNと特定の初期化を用いてトレーニングを安定化させる。
- FP16フォワード/バックワードとFP32オプティマイザ状態を用いた混合精度トレーニングを採用し、埋め込み勾配の縮小により埋め込みを安定化させる。
- 総計約2.45Tトークンに対して、1.2T英語、1.0T中国語WudaoCorpora、および追加の250G中国語データで事前学習を行う。
- 事前学習中に74のプロンプト付きデータセットを用いた5%のマルチタスク指示事前トレーニング(MIP)を組み込む。
- 3D並列性を設定(4-wayテンソル、8-wayパイプライン)し、400Bトークンに対して60日間のDGX-A100トレーニングを行う。
実験結果
リサーチクエスチョン
- RQ1100B規模のオープンなバイリンガルLLMがGPT-3およびBLOOM/OPTファミリーと比較して英語ベンチマークで優れたゼロショットおよびFew-Shotパフォーマンスを達成できるか。
- RQ2GLM-130Bの双方向GLMアーキテクチャは、デコーダー専用モデルと比較して言語理解タスクで改善をもたらすか。
- RQ3大規模バイリンガルLLMの事前学習において、DeepNormやEGSなどの安定性戦略がどれほど有効で、性能とアクセス性にどのように影響するか。
- RQ4INT4ウェイト量子化は、顕著な性能損失なしに家電向けGPUでの低コスト推論を可能にするか。
- RQ5GLM-130Bは中国語ベンチマーク(CLUE、FewCLUE)でERNIE Titan 3.0 260Bと比較してどうか。
主な発見
- GLM-130Bは112のタスクにおいて、英語ベンチマークの広範な範囲でGPT-3 175Bを上回る。
- ゼロショットLAMBADAの精度は双方向アテンションにより80.2%に達し、記録を更新。
- GLM-130Bは多くのケースでPaLM 540Bを上回り、中国語のCLUEタスクでERNIE Titan 3.0 260Bを上回る。
- INT4ウェイト量子化により4× RTX 3090 (24G) または8× RTX 2080 Ti (11G) でほとんど性能低下なしに推論が可能。
- GLM-130BはFew-shot設定でMMLUの優れた結果を達成し、BIG-bench-liteのゼロショットタスクでも良好な性能を示す。
- モデルは安定した性能を維持するINT4量子化スケーリング則をデモンストレーションする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。