QUICK REVIEW

[논문 리뷰] Machine Learning Model Sizes and the Parameter Gap

Pablo Villalobos, Jaime Sevilla|arXiv (Cornell University)|2022. 07. 05.

Topic Modeling인용 수 27

한 줄 요약

이 논문은 역사적 모델 크기 증가를 도메인별로 분석하고, 2018년 이후 급격한 가속을 확인하며, 언어 모델에서 지속적인 '매개변수 격차'(20B–70B)를 문서화하고 이를 설명할 가설들을 제시합니다.

ABSTRACT

We study trends in model size of notable machine learning systems over time using a curated dataset. From 1950 to 2018, model size in language models increased steadily by seven orders of magnitude. The trend then accelerated, with model size increasing by another five orders of magnitude in just 4 years from 2018 to 2022. Vision models grew at a more constant pace, totaling 7 orders of magnitude of growth between 1950 and 2022. We also identify that, since 2020, there have been many language models below 20B parameters, many models above 70B parameters, but a scarcity of models in the 20-70B parameter range. We refer to that scarcity as the parameter gap. We provide some stylized facts about the parameter gap and propose a few hypotheses to explain it. The explanations we favor are: (a) increasing model size beyond 20B parameters requires adopting different parallelism techniques, which makes mid-sized models less cost-effective, (b) GPT-3 was one order of magnitude larger than previous language models, and researchers afterwards primarily experimented with bigger models to outperform it. While these dynamics likely exist, and we believe they play some role in generating the gap, we don't have high confidence that there are no other, more important dynamics at play.

연구 동기 및 목표

비전, 언어, 게임, 기타 영역을 포함한 발표된 ML 모델 크기의 장기 추세를 평가한다.
20B에서 70B 매개변수 사이의 매개변수 격차의 출현과 특성을 특징지운다.
매개변수 격차에 대한 잠재적 설명을 평가하고 데이터로 가장 뒷받침되는 요인을 식별한다.

제안 방법

1950년대부터 2022년까지의 매개변수 수를 가진 238개의 주목할 만한 ML 모델의 선별 데이터세트를 수집하고 분석한다.
시간에 따른 모델 크기에 로그정규 노이즈를 갖는 로그-선형 지수 증가 모델을 적합시킨다.
관측된 매개변수 격차의 통계적 유의성을 평가하기 위해 몬테카를로 시뮬레이션을 수행한다.
언어 특화 모델과 다른 도메인 간의 구분된 분석을 통해 격차의 도메인 의존성을 검증한다.

실험 결과

연구 질문

RQ1ML 도메인 전반에 걸친 모델 크기의 과거 성장 패턴은 어떠한가?
RQ2발표된 언어 모델에서 20B와 70B 매개변수 사이에 상당한 매개변수 격차가 존재하는가, 그것이 우연히 발생할 확률은 얼마나 되는가?
RQ3어떤 요인(예: 병렬화, 연산력, 외부 인센티브)이 매개변수 격차를 설명하기에 타당한가?
RQ4격차에 대한 설명이 언어 모델과 다른 도메인 모델에서 다르게 나타나는가?
RQ5향후 하드웨어나 방법론의 변화가 격차의 지속 여부에 어떤 영향을 미칠 수 있는가?

주요 결과

Period	Data	Scale (start to end)	Slope	Doubling time	R2
1952 to 2018	n=109	1e+01 to 3e+7 params	0.1 OOMs/year	39.1 months	0.62
2018 to 2022	(single trend)	n=129	3e+7 to 2e+12 params	0.9 OOMs/year	4.2 months	0.31
2018 to 2022	(above gap)	n=27	7e+10 to 2e+12 params	0 OOMs/year	209 months	0.00
2018 to 2022	(below gap)	n=102	3e+7 to 2e+10 params	0.5 OOMs/year	8 months	0.25

언어 모델은 2018년 이후 큰 성장 가속을 보이며, 70B를 넘고 20B 미만 사이에 두 번째 클러스터가 형성된다(매개변수 격차).
1952–2018년 동안 성장은 연간 약 0.1 OOM이었고; 2018–2022년은 단일 추세로 약 0.9 OOM/year를 보이나, 두 개의 클러스터가 나타난다: 격차 이하(연간 0.5 OOM)와 격차 이상(명확한 추세 없음).
통계 분석은 20B–70B 격차가 우연히 발생할 가능성이 매우 낮음을 시사한다(단순 로그정규-지수 모델에서 확률 약 1e-5).
격차는 주로 언어 모델에서 나타나며, Other 도메인으로 한정하면 격차는 무작위 잡음으로 설명될 수 있다.
더 큰 모델이 더 많이 등장하고 하드웨어/경제 조건이 변화함에 따라 격차는 시간이 지남에 따라 축소되며, 도메인 간 격차가 따라잡으면 사라질 수 있음을 시사한다.
가장 뒷받침되는 설명은 학습/추론 병렬성 임계값과 기록 경신 모델의 영향이 혼합된 것에 기인하며, 단일한 설명은 결정적이지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.