[논문 리뷰] Algorithmic progress in language models
본 연구는 언어 모델의 사전 학습에서 알고리즘적 진보가 시간이 지남에 따라 필요한 계산량을 얼마나 줄이는지 정량화하고, 효과적 계산량의 중위 증가(이중화) 시간이 약 8개월임을 발견했으며, 계산 규모 확장이 최근 몇 년간 대부분의 이득을 좌우했다는 점을 확인합니다. 또한 트랜스포머의 계산 등가 이득과 알고리즘 대 하드웨어 규모 확장의 진화하는 역할을 평가합니다.
We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.
연구 동기 및 목표
- 2012–2023년의 200건 이상 평가 데이터를 사용하여 언어 모델의 사전 학습에서 알고리즘적 진보의 속도를 측정한다.
- 알고리즘 개선, 모델 스케일링, 데이터 스케일링의 기여로 성능 향상을 분해한다.
- 효과적 계산, 데이터 및 매개변수 효율성의 이중화 시간을 추정하고 트랜스포머 아키텍처와 비-트랜스포머 아키텍처를 비교한다.
- 트랜스포머 아키텍처가 계산 효율성과 전반적 진전에 어떤 영향을 미쳤는지 평가한다.
제안 방법
- 시간에 따라 N_eff 및 D_eff의 지수적 진행을 포함하고, 불가피 손실 E를 갖는 모델 크기 N과 데이터 D 간의 혼합된 스케일링 법칙에 맞춘다.
- 효과적 데이터 D_eff = D exp(beta'(Y-Y0)) 및 효과적 모델 크기 N_eff = N exp(alpha'(Y-Y0))를 정의하고 이를 L = E + A/N_eff^alpha_param + B/D_eff^beta_data에 대입한다.
- 약 90개 가량의 모델 변형을 leave-one-out 교차검증으로 추정하여 그들의 기준에 따른 최적 적합 명세(모델 7)를 확인한다.
- 데이터/매개변수 스케일링 대 알고리즘 개선에 대한 기여를 Shapley 값 스타일의 분해로 할당한다.
- gamma_T 매개변수를 도입하고 결과적으로 reducible loss의 감소를 계산하여 트랜스포머의 계산 등가 이득을 평가한다.
- TD = (beta_data/beta_year) ln 2, TN = (alpha_param/alpha_year) ln 2, TC = (1/TN + 1/TD)^-1 인 이중화를 계산하여 진행 속도를 정량화한다.
- 대안 명세, 자기상관 통제 및 데이터셋 간 교차검증(WT103, WT2, PTB)을 포함한 강건성 검사를 수행한다.
실험 결과
연구 질문
- RQ1언어 모델 성능의 개선 중 어느 정도가 알고리즘적 진보 versus 계산, 데이터, 매개변수 확장의 확대에서 기인하는가?
- RQ2固定된 성능 목표를 위한 필요한 계산량의 감소로 측정할 때, 언어 모델 사전 학습에서 알고리즘적 진보가 얼마나 빠르게 발생하는가?
- RQ3트랜스포머의 계산 효율성 기여도는 이전 아키텍처에 비해 어느 정도인가?
- RQ4모델 아키텍처, 데이터 품질, 학습 기법이 시간이 지남에 따라 관찰되는 진전에 어떻게 영향을 미치는가?
주요 결과
- 효과적 계산의 중위 이중화 시간은 8.4개월(95% CI 4.5–14.3개월)이다.
- 단순 외삽으로는 2014년 이후 알고리즘적 진행이 관측대로 계속됐다면 약 22,000× 더 많은 계산으로 성능이 개선되었을 수 있지만, 이 외삽은 주의가 필요하다.
- 트랜스포머는 프런티어 계산 예산에서 중위 추정치 7.2×(95% CI 3.3× ~ 45.7×)의 계산 등가 이득을 제공하여 아키텍처의 상당한 효율성 향상을 의미한다.
- 모델 진화 쌍에 걸쳐 계산 규모 확장이 알고리즘적 진전에 비해 시간이 지남에 따라 더 중요해졌으며, 2019년 이후 LLM의 규모 확장에 대한 강조가 커졌다는 것과 일치한다.
- Shapley 분석은 2014년 이후로는 계산 규모 확장이 알고리즘적 진전보다 성능 향상에 더 크게 기여했음을 시사하지만, 트랜스포머와 알고리즘적 진보도 여전히 의미 있는 역할을 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.