[論文レビュー] Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster
Cerebras-GPT は、Chinchilla scaling と Maximal Update Parameterization (µP) を用いて Pile データセット上で 111M から 13B パラメータまで計算最適化された GPT様モデルを学習させ、オープンモデルの最先端のトレーニング効率を示すオープンモデルとスケーリング法則を公開する。
We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($μ$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.
研究の動機と目的
- 最近の LLM 効率性スケーリング技術を組み合わせて計算最適なオープンモデルとスケーリング法則を作成する。
- Chinchilla データ効率規則に従って Pile 上でモデルを事前学習し、計算当たりのパフォーマンスを最大化する。
- オープンモデルの Pareto 最適フロンティアを確立するために、上流(Pile)と下流タスクを評価する。
- Maximal Update Parameterization (µP) が安定性、精度、およびスケール間のハイパーパラメータ転移を改善する方法を示す。
- 再現性とコミュニティ利用を可能にするために、事前学習済みモデルとコードを公開する。
提案手法
- GPT-3 に類似した自己回帰型トランスフォーマー・デコーダーアーキテクチャを、すべてのデコーダーブロックで密な注意を採用して構築する。
- Pile データセット上で 111M から 13B パラメータのモデルを 1 パラメータあたり 20 トークンで事前学習し、計算効率を高める(Chinchilla 規則)。
- AdamW 最適化、線形学習率減衰、勾配クリッピング、混合精度(FP16/bfloat16、bf16 が好ましい)を使用。
- Pile テストセットでのクロスエントロピーで評価し、公開モデルと比較する。必要に応じて語彙による損失を GPT-2 語彙に再正規化する。
- 安定性と転移性を評価するために Standard Parameterization (SP) と Maximal Update Parameterization (µP) を調査し、µTransfer を適用してハイパーパラメータをスケールさせる。
- Andromeda Cerebras ウェハーサイズ・クラスターでの訓練を文書化し、モデルとコードを HuggingFace に公開する。
実験結果
リサーチクエスチョン
- RQ1Chinchilla 的なデータ効率性に従って Pile 上の事前学習における計算効率的なスケーリング法則は何か。
- RQ2Cerebras-GPT モデルは、同程度のサイズのオープンモデルの中で upstream および downstream タスクにおいて最先端のトレーニング効率を達成するか。
- RQ3µP はモデルスケール間の安定性、精度、ハイパーパラメータ転移を改善するか。
- RQ4計算最適モデルと固定データセットサイズモデルを比較した場合、下流性能と効率はどのように異なるか。
- RQ5事前学習計算と推論計算のバランスが総展開コストに与える影響は何か。
主な発見
| モデル | 訓練 FLOPs | Pile テスト xent | Hella-Swag | PIQA | Wino-Grande | Lambada | ARC-e | ARC-c | OpenBookQA | 下流の平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| OPT | 2.7B | 6.1e21 | - | 0.458 | 0.738 | 0.610 | 0.637 | 0.609 | 0.250 | 0.510 |
| Pythia | 2.8B | 6.1e21 | 1.720 | 0.451 | 0.737 | 0.612 | 0.654 | 0.629 | 0.288 | 0.513 |
| Cerebras-GPT | 2.7B | 1.1e21 | 1.834 | 0.386 | 0.701 | 0.559 | 0.567 | 0.571 | 0.246 | 0.462 |
| GPT-J | 6.1B | 1.7e22 | 1.613 | 0.518 | 0.752 | 0.640 | 0.670 | 0.340 | 0.288 | 0.556 |
| OPT | 6.7B | 1.4e22 | - | 0.505 | 0.763 | 0.654 | 0.677 | 0.656 | 0.307 | 0.548 |
| Pythia | 6.9B | 1.4e22 | 1.626 | 0.482 | 0.746 | 0.611 | 0.679 | 0.669 | 0.323 | 0.540 |
| Cerebras-GPT | 13B | 2.3e22 | 1.572 | 0.513 | 0.766 | 0.646 | 0.696 | 0.714 | 0.367 | 0.570 |
| GPT-NeoX | 20B | 6.4e22 | 1.519 | 0.535 | 0.779 | 0.661 | 0.720 | 0.723 | 0.380 | 0.584 |
| Pythia Pile-dedup | 2.8B | 6.1e21 | 1.724 | 0.466 | 0.743 | 0.612 | 0.672 | 0.662 | 0.299 | 0.526 |
| 6.9B | 1.4e22 | 1.644 | 0.488 | 0.756 | 0.636 | 0.695 | 0.667 | 0.320 | 0.252 | 0.545 |
| 12B | 2.4e22 | 1.601 | 0.516 | 0.761 | 0.639 | 0.712 | 0.697 | 0.341 | 0.280 | 0.564 |
- Cerebras-GPT モデル(111M–13B)は、Pile 上で 20 トークン/パラメータの下での事前学習と下流タスクにおける計算効率の Pareto フロンティアを確立する。
- µP モデルは SP モデルと比較して平均で約 0.43% の Pile テスト損失改善と約 1.7% の下流精度の向上を示し、より予測可能なスケーリングを実現する。
- 13B モデルは、同程度の規模のオープンモデルの中で最も優れた平均的な下流パフォーマンスを diverse なタスク群で達成することが多い。
- 20 トークン/パラメータでの事前学習は DeepMind の Chinchilla の発見と整合する計算効率的スケーリングを生み出し、計算フロンティアの外挿はより大規模な期待と一致する。
- 訓練コストと推論コストを考慮すると、Cerebras-GPT 変種は固定トークンのベースラインよりもコスト効果が高くなる場合がある(例: 大きな推論トークン予算まで)。
- 論文は事前学習済みウェイトとコードを公開(HuggingFace、Cerebras Modelzoo)し、安定したスケーリングのための詳細な µP ガイダンスを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。