[논문 리뷰] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
본 논문은 MiniCPM을 소개합니다. 1.2B 및 2.4B 비임베딩 작은 언어 모델의 확장 가능한 학습 전략으로, 7B–13B LLM과 비견되는 능력을 달성하고 Warmup-Stable-Decay 스케줄러를 통해 데이터-모델 확장 법칙을 탐구합니다.
The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .
연구 동기 및 목표
- 소형 언어 모델도 확장 가능한 학습 전략으로 경쟁력 있는 성능을 달성할 수 있음을 입증합니다.
- 윈드 터널 실험을 통해 모델 및 데이터 확장을 조사하고 새로운 학습률 스케줄러(WSD)를 도입합니다.
- 연속 학습에서의 데이터-모델 확장을 효율적으로 연구하기 위한 학습 역학 분석 및 데이터-모델 확장 법칙 도출을 목표로 합니다.
- MiniCPM 계열의 변형을 소개하고 이를 기존 벤치마크와 비교하여 성능을 평가합니다.
제안 방법
- 소형 모델 전반에 걸친 하이퍼파라미터 및 배치 크기 확장을 최적화하기 위한 광범위한 모델 윈드 터널 실험을 수행합니다.
- 연속 학습 및 도메인 적응을 가능하게 하는 Warmup-Stable-Decay(WSD) 학습률 스케줄러를 제안합니다.
- WSD를 활용한 학습 역학 분석을 통해 다시 시작하지 않고도 데이터-모델 확장을 효율적으로 연구합니다.
- MiniCPM 변형(MiniCPM-DPO, MiniCPM-MoE, MiniCPM-128K)을 기존 SLM 벤치마크와 비교 평가합니다.
- MiniCPM 모델과 구성을 공개적으로 공유합니다.
실험 결과
연구 질문
- RQ1소형 언어 모델(1.2B 및 2.4B 비임베딩)이 확장 가능한 학습 전략으로 경쟁력 있는 성능을 달성할 수 있는가?
- RQ2전통적인 스케줄과 비교했을 때 WSD 학습률 스케줄러 하에서 모델 및 데이터 확장은 어떻게 상호 작용하는가?
- RQ3연속 학습에서 MiniCPM의 최적 성능을 위한 실질적 데이터-모델 비율은 무엇인가?
- RQ4MiniCPM 변형(DPO, MoE, 128K)이 표준 벤치마크에서 기존의 7B–13B 모델을 능가하는가?
주요 결과
| 모델/시나리오 | C-Eval | CMMLU | MMLU | GSM8K | MATH | HumanEval | MBPP |
|---|---|---|---|---|---|---|---|
| A-1 (2.4B decay only pre-training + 4B SFT) | 40.0 | 41.5 | 44.6 | 27.7 | 5.1 | 27.7 | 24.4 |
| A-2 (2.4B decay with high-quality data + SFT) | 52.6 | 51.1 | 50.9 | 42.3 | 5.4 | 30.4 | 30.3 |
| B-1 (1.2B decay only pre-training + 6B SFT) | 40.9 | 41.5 | 47.9 | 34.2 | 7.9 | 43.9 | 30.5 |
| B-2 (1.2B decay with high-quality data + SFT) | 41.2 | 42.0 | 47.9 | 34.4 | 7.3 | 43.9 | 29.8 |
| B-3 (1.2B decay with high-quality data + SFT) | 49.1 | 46.8 | 49.6 | 31.8 | 10.5 | 44.5 | 32.8 |
- MiniCPM-1.2B 및 MiniCPM-2.4B는 경쟁력 있는 성능을 달성하며 특정 평가에서 Mistral-7B 및 LLama-13B를 능가합니다.
- DPO 변형은 MTBench에서 zephyr-7B를 능가합니다.
- 2.4B MiniCPM-128K 모델은 일부 작업에서 Yarn-Mistral-7B-128K 및 ChatGLM3-6B-128K와 동등하거나 그 이상입니다.
- MiniCPM-MoE(활성화 파라미터 4B 포함)는 Llama2-34B에 버금갑니다.
- WSD LRS는 데이터-모델 확장을 효율적으로 분석하게 하고 Chinchilla Optimal보다 더 높은 데이터-모델 비율을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.