[논문 리뷰] Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster
Cerebras-GPT는 Pile 데이터셋에서 Chinchilla 스케일링과 Maximal Update Parameterization (µP)을 사용하여 111M에서 13B 매개변수의 계산-최적의 GPT 유사 모델을 훈련하고 오픈 모델의 최첨단 학습 효율성을 보여주는 오픈 모델의 스케일링 법칙 및 모델을 공개합니다.
We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($μ$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.
연구 동기 및 목표
- 최근 LLM 효율 스케일링 기법을 결합하여 계산-최적의 오픈 모델 및 스케일링 법칙을 만들기.
- Pile에서 데이터 효율성 규칙(Chinchilla 규칙)을 따라 사전학습하여 컴퓨트당 성능을 극대화.
- 상류(Pile) 및 하류 작업을 평가하여 오픈 모델의 Pareto 최적 프런티어를 확립.
- Maximal Update Parameterization (µP)가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는 방법을 입증.
- 재현성과 커뮤니티 사용을 가능하게 하기 위해 사전학습 모델과 코드를 공개합니다.
제안 방법
- Decoder 블록 전체에 밀집 어텐션을 갖춘 GPT-3 유사 자동회귀 변환기 구조.
- Pile 데이터셋에서 111M에서 13B 매개변수로 20 토큰/매개변수의 계산 효율성을 위한 학습(Chinchilla 규칙).
- AdamW 최적화와 선형 학습률 감소, 그래디언트 클리핑, 혼합 정밀도(FP16/bfloat16 중 bf16 선호).
- PILE 테스트 세트에서 교차 엔트로피로 평가하고 공개 모델과 비교; 필요 시 GPT-2 어휘로 손실 재정규화.
- 안정성과 전이성을 평가하기 위해 Standard Parameterization(SP) 및 Maximal Update Parameterization(µP)을 조사하고 µTransfer를 사용하여 규모에 맞춘 하이퍼파라미터를 조정.
- Andromeda Cerebras 웨이퍼-스케일 클러스터에서의 훈련을 문서화하고 HuggingFace에 모델과 코드를 공개합니다.
실험 결과
연구 질문
- RQ1Chinchilla 유사 데이터 효율성을 따를 때 Pile에서의 사전학습 언어 모델에 대한 계산 효율적 스케일링 법칙은 무엇인가?
- RQ2Cerebras-GPT 모델이 같은 규모의 오픈 모델 중 상류 및 하류 작업에서 최첨단 학습 효율성을 달성하는가?
- RQ3µP가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는가?
- RQ4계산에 최적화된 모델이 고정 데이터셋 크기 모델에 비해 하류 성능 및 효율성 측면에서 어떤 차이가 있는가?
- RQ5사전학습 계산과 추론 계산의 균형이 전체 배치 비용에 어떤 의미를 가지는가?
주요 결과
| 모델 | 학습 FLOPs | Pile 테스트 xent | Hella-Swag | PIQA | Wino-Grande | Lambada | ARC-e | ARC-c | OpenBookQA | 하류 평균 |
|---|---|---|---|---|---|---|---|---|---|---|
| OPT | 2.7B | 6.1e21 | - | 0.458 | 0.738 | 0.610 | 0.637 | 0.609 | 0.250 | 0.510 |
| Pythia | 2.8B | 6.1e21 | 1.720 | 0.451 | 0.737 | 0.612 | 0.654 | 0.629 | 0.288 | 0.513 |
| Cerebras-GPT | 2.7B | 1.1e21 | 1.834 | 0.386 | 0.701 | 0.559 | 0.567 | 0.571 | 0.246 | 0.462 |
| GPT-J | 6.1B | 1.7e22 | 1.613 | 0.518 | 0.752 | 0.640 | 0.670 | 0.340 | 0.288 | 0.556 |
| OPT | 6.7B | 1.4e22 | - | 0.505 | 0.763 | 0.654 | 0.677 | 0.656 | 0.307 | 0.548 |
| Pythia | 6.9B | 1.4e22 | 1.626 | 0.482 | 0.746 | 0.611 | 0.679 | 0.669 | 0.323 | 0.540 |
| Cerebras-GPT | 13B | 2.3e22 | 1.572 | 0.513 | 0.766 | 0.646 | 0.696 | 0.714 | 0.367 | 0.570 |
| GPT-NeoX | 20B | 6.4e22 | 1.519 | 0.535 | 0.779 | 0.661 | 0.720 | 0.723 | 0.380 | 0.584 |
| Pythia Pile-dedup | 2.8B | 6.1e21 | 1.724 | 0.466 | 0.743 | 0.612 | 0.672 | 0.662 | 0.299 | 0.526 |
| 6.9B | 1.4e22 | 1.644 | 0.488 | 0.756 | 0.636 | 0.695 | 0.667 | 0.320 | 0.252 | 0.545 |
| 12B | 2.4e22 | 1.601 | 0.516 | 0.761 | 0.639 | 0.712 | 0.697 | 0.341 | 0.280 | 0.564 |
- Pile에서 학습된 Cerebras-GPT 모델(111M–13B)이 20 토큰/매개변수 하에서 계산 효율적 Pareto 프런티어를 확립한다.
- µP 모델은 SP 모델에 비해 평균적으로 Pile 테스트 손실이 약 0.43% 더 우수하고 하류 정확도는 약 1.7% 더 높으며 스케일링이 더 예측 가능하다.
- 13B 모델은 비교 가능 규모의 오픈 모델들 사이에서 다양한 작업에서 평균 하류 성능이 종종 최고를 기록한다.
- 20 토큰/매개변수 학습은 DeepMind의 Chinchilla 연구와 일치하는 계산 효율적 스케일링을 보이며 계산-프런티어 외삽도 더 큰 규모의 기대와 일치한다.
- 학습과 추론 비용을 모두 고려할 때 Cerebras-GPT 변형은 고정 토큰 기준선에 비해 상당한 추론 토큰 예산까지 비용 효율적일 수 있다(예: 약 200B 토큰 수준).
- 논문은 사전학습 가중치와 코드를 공개(HuggingFace, Cerebras Modelzoo)하고 안정적 확장을 위한 µP 지침을 상세히 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.