Skip to main content
QUICK REVIEW

[논문 리뷰] Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

Nolan Dey, Gurpreet Gosal|arXiv (Cornell University)|2023. 04. 06.
Topic Modeling인용 수 24
한 줄 요약

Cerebras-GPT는 Pile 데이터셋에서 Chinchilla 스케일링과 Maximal Update Parameterization (µP)을 사용하여 111M에서 13B 매개변수의 계산-최적의 GPT 유사 모델을 훈련하고 오픈 모델의 최첨단 학습 효율성을 보여주는 오픈 모델의 스케일링 법칙 및 모델을 공개합니다.

ABSTRACT

We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($μ$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.

연구 동기 및 목표

  • 최근 LLM 효율 스케일링 기법을 결합하여 계산-최적의 오픈 모델 및 스케일링 법칙을 만들기.
  • Pile에서 데이터 효율성 규칙(Chinchilla 규칙)을 따라 사전학습하여 컴퓨트당 성능을 극대화.
  • 상류(Pile) 및 하류 작업을 평가하여 오픈 모델의 Pareto 최적 프런티어를 확립.
  • Maximal Update Parameterization (µP)가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는 방법을 입증.
  • 재현성과 커뮤니티 사용을 가능하게 하기 위해 사전학습 모델과 코드를 공개합니다.

제안 방법

  • Decoder 블록 전체에 밀집 어텐션을 갖춘 GPT-3 유사 자동회귀 변환기 구조.
  • Pile 데이터셋에서 111M에서 13B 매개변수로 20 토큰/매개변수의 계산 효율성을 위한 학습(Chinchilla 규칙).
  • AdamW 최적화와 선형 학습률 감소, 그래디언트 클리핑, 혼합 정밀도(FP16/bfloat16 중 bf16 선호).
  • PILE 테스트 세트에서 교차 엔트로피로 평가하고 공개 모델과 비교; 필요 시 GPT-2 어휘로 손실 재정규화.
  • 안정성과 전이성을 평가하기 위해 Standard Parameterization(SP) 및 Maximal Update Parameterization(µP)을 조사하고 µTransfer를 사용하여 규모에 맞춘 하이퍼파라미터를 조정.
  • Andromeda Cerebras 웨이퍼-스케일 클러스터에서의 훈련을 문서화하고 HuggingFace에 모델과 코드를 공개합니다.

실험 결과

연구 질문

  • RQ1Chinchilla 유사 데이터 효율성을 따를 때 Pile에서의 사전학습 언어 모델에 대한 계산 효율적 스케일링 법칙은 무엇인가?
  • RQ2Cerebras-GPT 모델이 같은 규모의 오픈 모델 중 상류 및 하류 작업에서 최첨단 학습 효율성을 달성하는가?
  • RQ3µP가 규모 간 안정성, 정확도 및 하이퍼파라미터 전이성을 개선하는가?
  • RQ4계산에 최적화된 모델이 고정 데이터셋 크기 모델에 비해 하류 성능 및 효율성 측면에서 어떤 차이가 있는가?
  • RQ5사전학습 계산과 추론 계산의 균형이 전체 배치 비용에 어떤 의미를 가지는가?

주요 결과

모델학습 FLOPsPile 테스트 xentHella-SwagPIQAWino-GrandeLambadaARC-eARC-cOpenBookQA하류 평균
OPT2.7B6.1e21-0.4580.7380.6100.6370.6090.2500.510
Pythia2.8B6.1e211.7200.4510.7370.6120.6540.6290.2880.513
Cerebras-GPT2.7B1.1e211.8340.3860.7010.5590.5670.5710.2460.462
GPT-J6.1B1.7e221.6130.5180.7520.6400.6700.3400.2880.556
OPT6.7B1.4e22-0.5050.7630.6540.6770.6560.3070.548
Pythia6.9B1.4e221.6260.4820.7460.6110.6790.6690.3230.540
Cerebras-GPT13B2.3e221.5720.5130.7660.6460.6960.7140.3670.570
GPT-NeoX20B6.4e221.5190.5350.7790.6610.7200.7230.3800.584
Pythia Pile-dedup2.8B6.1e211.7240.4660.7430.6120.6720.6620.2990.526
6.9B1.4e221.6440.4880.7560.6360.6950.6670.3200.2520.545
12B2.4e221.6010.5160.7610.6390.7120.6970.3410.2800.564
  • Pile에서 학습된 Cerebras-GPT 모델(111M–13B)이 20 토큰/매개변수 하에서 계산 효율적 Pareto 프런티어를 확립한다.
  • µP 모델은 SP 모델에 비해 평균적으로 Pile 테스트 손실이 약 0.43% 더 우수하고 하류 정확도는 약 1.7% 더 높으며 스케일링이 더 예측 가능하다.
  • 13B 모델은 비교 가능 규모의 오픈 모델들 사이에서 다양한 작업에서 평균 하류 성능이 종종 최고를 기록한다.
  • 20 토큰/매개변수 학습은 DeepMind의 Chinchilla 연구와 일치하는 계산 효율적 스케일링을 보이며 계산-프런티어 외삽도 더 큰 규모의 기대와 일치한다.
  • 학습과 추론 비용을 모두 고려할 때 Cerebras-GPT 변형은 고정 토큰 기준선에 비해 상당한 추론 토큰 예산까지 비용 효율적일 수 있다(예: 약 200B 토큰 수준).
  • 논문은 사전학습 가중치와 코드를 공개(HuggingFace, Cerebras Modelzoo)하고 안정적 확장을 위한 µP 지침을 상세히 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.