QUICK REVIEW

[논문 리뷰] Training Compute-Optimal Large Language Models

Jordan Hoffmann, Sebastian Borgeaud|arXiv (Cornell University)|2022. 03. 29.

Topic Modeling인용 수 651

한 줄 요약

이 논문은 트랜스포머 LLM의 계산-최적 학습을 위해 모델 크기와 학습 토큰 수가 대략 같은 비율로 증가해야 한다는 것을 보여주며; 70B 파라미터의 계산-최적 모델(Chinchilla)을 학습시켜 Gopher 및 GPT-3와 같은 더 큰 모델보다 다운스트림 태스크에서 우수하다는 것을 검증한다.

ABSTRACT

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, Chinchilla, that uses the same compute budget as Gopher but with 70B parameters and 4$ imes$ more more data. Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that Chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, Chinchilla reaches a state-of-the-art average accuracy of 67.5% on the MMLU benchmark, greater than a 7% improvement over Gopher.

연구 동기 및 목표

고정된 FLOPs 예산 하에서 사전 학습 언어 모델의 모델 크기와 학습 데이터 간 최적의 compute 배분을 결정한다.
현재의 대형 모델들이 충분히 학습되지 않았는지, 파라미터와 데이터의 동등한 스케일링이 더 나은 성능을 내는지 테스트한다.
예상된 스케일링을 따르는 계산-최적 모델(Chinchilla)을 개발·평가하고 기존 대형 모델과 비교한다.

제안 방법

5B에서 >400B 토큰에 걸쳐 70M에서 >16B 파라미터에 이르는 400개 이상의 모델을 학습시켜 FLOPs–손실 프런티어를 매핑한다.
연산 C의 함수로 최적의 N과 D를 추정하기 위해 세 가지 접근법(고정 모델 크기에 다양한 토큰; IsoFLOP 프로필; 매개변수화 손실 모델)을 적합시킨다.
모델 크기와 데이터에 대해 거듭 제곱 법칙(power-law)으로 compute 관계를 가정하고, N_opt(C) ~ C^a 및 D_opt(C) ~ C^b를 도출하며 a ≈ b ≈ 0.5이다.
Chinchilla(70B 파라미터, 1.4T 토큰)를 Gopher와 동일한 compute 예산으로 학습하여 예측된 프런티어를 검증한다.
Chinchilla를 Gopher, GPT-3, Jurassic-1, MT-NLG와 비교하고 MMLU, BIG-bench, LAMBADA, closed-book QA를 포함한 여러 벤치마크에서 평가한다.
Chinchilla가 여러 지표에서 최첨단 성능을 달성했다고 보고하는데, 예를 들어 MMLU에서 평균 67.5%이다.

실험 결과

연구 질문

RQ1고정된 FLOPs 예산 하에서 프리-트레이닝 트랜스포머의 모델 크기와 학습 토큰 간 최적의 compute 배분은 무엇인가?
RQ2모델 크기와 데이터가 증가하는 compute와 함께 동등하게 스케일링되어 compute-optimal 성능을 달성하는가?
RQ3더 많은 데이터에 대해 compute-최적화된 더 작은 모델(Chinchilla)을 학습시키는 것이 데이터가 풍부하지만 더 큰 모델보다 다운스트림 태스크에서 우수한가?

주요 결과

최적 스케일링: 모델 크기와 학습 토큰 모두 compute에 비례하여 거의 같은 비율로 스케일링되어야 한다(N_opt ∝ C^a, D_opt ∝ C^b, a≈0.5, b≈0.5).
현재의 대형 LLM은 계산 예산에 비해 학습이 충분하지 않다; 계산-최적 모델은 일반적으로 대형 파라미터 수에서 사용되는 것보다 더 많은 학습 토큰을 필요로 한다.
Chinchilla(70B, 1.4T 토큰)는 Gopher(280B, 300B 토큰), GPT-3(175B, 300B 토큰), Jurassic-1(178B, 300B 토큰), MT-NLG(530B, 270B 토큰)보다 많은 다운스트림 태스크에서 우수하다.
Chinchilla는 MMLU에서 평균 67.5%로 최첨단 성능을 달성하여 Gopher를 7포인트 이상 앞섰다.
Chinchilla는 파라미터 수가 작아 추론 및 파인튜닝 compute를 감소시키면서도 다양한 태스크(The Pile, MMLU, BIG-bench, LAMBADA, RACE)에서 더 나은 성능을 제공한다.
본 논문은 대형 모델과 관련된 편향 및 독성 위험과 같은 문제도 논의한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.