Skip to main content
QUICK REVIEW

[论文解读] Machine Learning Model Sizes and the Parameter Gap

Pablo Villalobos, Jaime Sevilla|arXiv (Cornell University)|Jul 5, 2022
Topic Modeling被引用 27
一句话总结

本文分析了历史模型规模在不同领域的增长,指出2018年后出现显著加速,并记录语言模型存在持续的“参数差距”(20B–70B),并提出解释假设。

ABSTRACT

We study trends in model size of notable machine learning systems over time using a curated dataset. From 1950 to 2018, model size in language models increased steadily by seven orders of magnitude. The trend then accelerated, with model size increasing by another five orders of magnitude in just 4 years from 2018 to 2022. Vision models grew at a more constant pace, totaling 7 orders of magnitude of growth between 1950 and 2022. We also identify that, since 2020, there have been many language models below 20B parameters, many models above 70B parameters, but a scarcity of models in the 20-70B parameter range. We refer to that scarcity as the parameter gap. We provide some stylized facts about the parameter gap and propose a few hypotheses to explain it. The explanations we favor are: (a) increasing model size beyond 20B parameters requires adopting different parallelism techniques, which makes mid-sized models less cost-effective, (b) GPT-3 was one order of magnitude larger than previous language models, and researchers afterwards primarily experimented with bigger models to outperform it. While these dynamics likely exist, and we believe they play some role in generating the gap, we don't have high confidence that there are no other, more important dynamics at play.

研究动机与目标

  • 评估跨领域(视觉、语言、游戏、其他)已发表的ML模型规模的长期趋势。
  • 刻画20B与70B参数之间的参数差距的出现与性质。
  • 评估可能解释参数差距的因素,并识别哪些因素最有数据支持。

提出的方法

  • 编制并分析一个包含1950s–2022年238个著名ML模型的参数计数的整理数据集。
  • 对模型规模随时间的关系拟合带有对数正态噪声的对数线性指数增长模型。
  • 进行蒙特卡洛模拟以评估观测到的参数差距的统计显著性。
  • 对语言模型与其他领域分别进行分析,以测试差距的领域依赖性。

实验结果

研究问题

  • RQ1ML领域的模型规模历史增长模式是什么?
  • RQ2在公开语言模型中,是否存在一个介于20B与70B参数之间的显著参数差距,以及它被偶然产生的概率有多大?
  • RQ3哪些因素(如并行性、计算、外部激励)可以合理地解释参数差距?
  • RQ4对语言模型与其他领域的模型而言,解释差距的因素是否不同?
  • RQ5未来的硬件或方法学变革如何影响差距是否持续存在或缩小?

主要发现

PeriodDataScale (start to end)SlopeDoubling timeR2
1952 to 2018n=1091e+01 to 3e+7 params0.1 OOMs/year39.1 months0.62
2018 to 2022(single trend)n=1293e+7 to 2e+12 params0.9 OOMs/year4.2 months0.31
2018 to 2022(above gap)n=277e+10 to 2e+12 params0 OOMs/year209 months0.00
2018 to 2022(below gap)n=1023e+7 to 2e+10 params0.5 OOMs/year8 months0.25
  • 语言模型在2018年后显示出显著的增长加速,在70B以上与20B以下之间出现第二组群集(参数差距)。
  • 从1952–2018年,增长约0.1 OOMs/年;2018–2022年呈现单一趋势约0.9 OOMs/年,但出现两个群集:差距以下(0.5 OOMs/年)和差距以上(无明确趋势)。
  • 统计分析表明20B–70B差距在偶然情况下的可能性很小(在简单的对数正态-指数模型下概率约为1e-5)。
  • 该差距在语言模型中大多存在;若仅限于Other领域,差距可由随机噪声解释。
  • 随着更多大型模型出现以及硬件/经济条件演变,差距随时间缩小,表明它可能在各领域追赶时消失。
  • 最有力的解释指出训练/推理并行阈值及创纪录模型的影响之间存在混合关系,尽管没有单一解释是决定性的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。