[論文レビュー] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
本論文は MiniCPM を紹介する。1.2B および 2.4B の非埋込みモデルからなる小規模言語モデルの系列を提案し、スケーラブルなトレーニング戦略を用いて、7B–13B級の大規模言語モデルと同等の能力を実現するとともに、Warmup-Stable-Decay scheduler を用いたデータ-モデルのスケーリング法則を探索する。
The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .
研究の動機と目的
- 小規模言語モデルが、スケーラブルなトレーニング戦略で競争力のある性能を達成できることを示す。
- 風洞実験と新規学習率スケジューラ(WSD)を用いて、モデルとデータのスケーリングを調査する。
- トレーニングダイナミクスを特徴づけ、SLM におけるデータスケーリングを有利にするデータ-モデルのスケーリング法則を導出する。
- MiniCPM ファミリーの派生モデルを導入し、確立されたベンチマークに対する性能を評価する。
提案手法
- 小規模モデル全体でハイパーパラメータとバッチサイズスケーリングを最適化するために、広範なモデル風洞実験を実施する。
- 継続的なトレーニングとドメイン適応を可能にする Warmup-Stable-Decay (WSD) 学習率スケジューラを提案する。
- WSD 下のトレーニングダイナミクスを分析し、スクラッチから再訓練することなく、データ-モデルスケーリングを効率的に研究する。
- 確立された SLM ベンチマークに対して、MiniCPM 系列の variants(MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128K)を評価する。
- MiniCPM モデルと設定を公開で共有する。
実験結果
リサーチクエスチョン
- RQ1小規模言語モデル(1.2B および 2.4B の非埋め込み)が、スケーラブルなトレーニング戦略で競争力のある性能を達成できるのか?
- RQ2従来のスケジュールと比較して、WSD 学習率スケジューラの下で、モデルとデータのスケーリングはどのように相互作用するのか?
- RQ3継続的なトレーニング下で MiniCPM の最適な性能を達成するための実効的なデータ対モデル比は何か?
- RQ4MiniCPM のバリアント(DPO、MoE、128K)は、標準的なベンチマークで既存の 7B–13B モデルを上回るのか?
主な発見
| モデル/シナリオ | C-Eval | CMMLU | MMLU | GSM8K | MATH | HumanEval | MBPP |
|---|---|---|---|---|---|---|---|
| A-1 (2.4B decay only pre-training + 4B SFT) | 40.0 | 41.5 | 44.6 | 27.7 | 5.1 | 27.7 | 24.4 |
| A-2 (2.4B decay with high-quality data + SFT) | 52.6 | 51.1 | 50.9 | 42.3 | 5.4 | 30.4 | 30.3 |
| B-1 (1.2B decay only pre-training + 6B SFT) | 40.9 | 41.5 | 47.9 | 34.2 | 7.9 | 43.9 | 30.5 |
| B-2 (1.2B decay with high-quality data + SFT) | 41.2 | 42.0 | 47.9 | 34.4 | 7.3 | 43.9 | 29.8 |
| B-3 (1.2B decay with high-quality data + SFT) | 49.1 | 46.8 | 49.6 | 31.8 | 10.5 | 44.5 | 32.8 |
- MiniCPM-1.2B および MiniCPM-2.4B は、競争力のある性能を達成し、特定の評価で Mistral-7B および LLama-13B を上回る。
- DPO バリアントは MTBench で zephyr-7B を上回る。
- 2.4B MiniCPM-128K モデルは、選択タスクで Yarn-Mistral-7B-128K および ChatGLM3-6B-128K に匹敵するか、それらを上回る。
- MiniCPM-MoE(活性化パラメータが 4B の場合)は Llama2-34B と同程度である。
- WSD LRS は効率的なデータ-モデルスケーリング分析を可能にし、Chinchilla Optimal よりも高いデータ対モデル比を明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。