QUICK REVIEW

[논문 리뷰] Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

Nolan Dey, Gurpreet Gosal|arXiv (Cornell University)|2023. 04. 06.

Topic Modeling인용 수 24

한 줄 요약

Cerebras-GPT는 Pile 데이터셋에서 Chinchilla 스케일링과 Maximal Update Parameterization (µP)을 사용하여 111M에서 13B 매개변수의 계산-최적의 GPT 유사 모델을 훈련하고 오픈 모델의 최첨단 학습 효율성을 보여주는 오픈 모델의 스케일링 법칙 및 모델을 공개합니다.

ABSTRACT

We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($μ$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.

연구 동기 및 목표

최근 LLM 효율 스케일링 기법을 결합하여 계산-최적의 오픈 모델 및 스케일링 법칙을 만들기.
Pile에서 데이터 효율성 규칙(Chinchilla 규칙)을 따라 사전학습하여 컴퓨트당 성능을 극대화.
상류(Pile) 및 하류 작업을 평가하여 오픈 모델의 Pareto 최적 프런티어를 확립.
Maximal Update Parameterization (µP)가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는 방법을 입증.
재현성과 커뮤니티 사용을 가능하게 하기 위해 사전학습 모델과 코드를 공개합니다.

제안 방법

Decoder 블록 전체에 밀집 어텐션을 갖춘 GPT-3 유사 자동회귀 변환기 구조.
Pile 데이터셋에서 111M에서 13B 매개변수로 20 토큰/매개변수의 계산 효율성을 위한 학습(Chinchilla 규칙).
AdamW 최적화와 선형 학습률 감소, 그래디언트 클리핑, 혼합 정밀도(FP16/bfloat16 중 bf16 선호).
PILE 테스트 세트에서 교차 엔트로피로 평가하고 공개 모델과 비교; 필요 시 GPT-2 어휘로 손실 재정규화.
안정성과 전이성을 평가하기 위해 Standard Parameterization(SP) 및 Maximal Update Parameterization(µP)을 조사하고 µTransfer를 사용하여 규모에 맞춘 하이퍼파라미터를 조정.
Andromeda Cerebras 웨이퍼-스케일 클러스터에서의 훈련을 문서화하고 HuggingFace에 모델과 코드를 공개합니다.

실험 결과

연구 질문

RQ1Chinchilla 유사 데이터 효율성을 따를 때 Pile에서의 사전학습 언어 모델에 대한 계산 효율적 스케일링 법칙은 무엇인가?
RQ2Cerebras-GPT 모델이 같은 규모의 오픈 모델 중 상류 및 하류 작업에서 최첨단 학습 효율성을 달성하는가?
RQ3µP가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는가?
RQ4계산에 최적화된 모델이 고정 데이터셋 크기 모델에 비해 하류 성능 및 효율성 측면에서 어떤 차이가 있는가?
RQ5사전학습 계산과 추론 계산의 균형이 전체 배치 비용에 어떤 의미를 가지는가?

주요 결과

모델	학습 FLOPs	Pile 테스트 xent	Hella-Swag	PIQA	Wino-Grande	Lambada	ARC-e	ARC-c	OpenBookQA	하류 평균
OPT	2.7B	6.1e21	-	0.458	0.738	0.610	0.637	0.609	0.250	0.510
Pythia	2.8B	6.1e21	1.720	0.451	0.737	0.612	0.654	0.629	0.288	0.513
Cerebras-GPT	2.7B	1.1e21	1.834	0.386	0.701	0.559	0.567	0.571	0.246	0.462
GPT-J	6.1B	1.7e22	1.613	0.518	0.752	0.640	0.670	0.340	0.288	0.556
OPT	6.7B	1.4e22	-	0.505	0.763	0.654	0.677	0.656	0.307	0.548
Pythia	6.9B	1.4e22	1.626	0.482	0.746	0.611	0.679	0.669	0.323	0.540
Cerebras-GPT	13B	2.3e22	1.572	0.513	0.766	0.646	0.696	0.714	0.367	0.570
GPT-NeoX	20B	6.4e22	1.519	0.535	0.779	0.661	0.720	0.723	0.380	0.584
Pythia Pile-dedup	2.8B	6.1e21	1.724	0.466	0.743	0.612	0.672	0.662	0.299	0.526
6.9B	1.4e22	1.644	0.488	0.756	0.636	0.695	0.667	0.320	0.252	0.545
12B	2.4e22	1.601	0.516	0.761	0.639	0.712	0.697	0.341	0.280	0.564

Pile에서 학습된 Cerebras-GPT 모델(111M–13B)이 20 토큰/매개변수 하에서 계산 효율적 Pareto 프런티어를 확립한다.
µP 모델은 SP 모델에 비해 평균적으로 Pile 테스트 손실이 약 0.43% 더 우수하고 하류 정확도는 약 1.7% 더 높으며 스케일링이 더 예측 가능하다.
13B 모델은 비교 가능 규모의 오픈 모델들 사이에서 다양한 작업에서 평균 하류 성능이 종종 최고를 기록한다.
20 토큰/매개변수 학습은 DeepMind의 Chinchilla 연구와 일치하는 계산 효율적 스케일링을 보이며 계산-프런티어 외삽도 더 큰 규모의 기대와 일치한다.
학습과 추론 비용을 모두 고려할 때 Cerebras-GPT 변형은 고정 토큰 기준선에 비해 상당한 추론 토큰 예산까지 비용 효율적일 수 있다(예: 약 200B 토큰 수준).
논문은 사전학습 가중치와 코드를 공개(HuggingFace, Cerebras Modelzoo)하고 안정적 확장을 위한 µP 지침을 상세히 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.