[论文解读] Scaling Laws for Autoregressive Generative Modeling
本文表明自回归 Transformer 在语言、图像、视频、多模态和数学等领域的交叉熵损失呈现一致的幂律加常数的尺度规律,且几乎在所有领域都表现出与计算资源相关的最优模型规模的普遍性尺度,以及可解释的不可约/可约损失分量。
We identify empirical scaling laws for the cross-entropy loss in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cases autoregressive Transformers smoothly improve in performance as model size and compute budgets increase, following a power-law plus constant scaling law. The optimal model size also depends on the compute budget through a power-law, with exponents that are nearly universal across all data domains. The cross-entropy loss has an information theoretic interpretation as $S($True$) + D_{\mathrm{KL}}($True$||$Model$)$, and the empirical scaling laws suggest a prediction for both the true data distribution's entropy and the KL divergence between the true and model distributions. With this interpretation, billion-parameter Transformers are nearly perfect models of the YFCC100M image distribution downsampled to an $8 imes 8$ resolution, and we can forecast the model size needed to achieve any given reducible loss (ie $D_{\mathrm{KL}}$) in nats/image for other resolutions. We find a number of additional scaling laws in specific domains: (a) we identify a scaling relation for the mutual information between captions and images in multimodal models, and show how to answer the question "Is a picture worth a thousand words?"; (b) in the case of mathematical problem solving, we identify scaling laws for model performance when extrapolating beyond the training distribution; (c) we finetune generative image models for ImageNet classification and find smooth scaling of the classification loss and error rate, even as the generative loss levels off. Taken together, these results strengthen the case that scaling laws have important implications for neural network performance, including on downstream tasks.
研究动机与目标
- 使用自回归 Transformer 在多种数据模态下识别交叉熵损失的经验尺度规律。
- 表征最优模型规模如何依赖于计算预算,以及损失如何分解为不可约和可约分量。
- 量化特定领域的尺度外推指数,并通过信息理论视角解释结果。
- 展示尺度规律对分类、多语言/多模态任务以及数学中的外推的下游影响。
提出的方法
- 在各领域训练仅解码器的 Transformer 模型,使用自回归交叉熵损失(包括语言、不同分辨率的图像、视频、多模态图像-文本,以及程序生成的数学)。
- 将损失 L 拟合为幂律加常数形式 L(x)=L∞+(x0/x)^{αx},其中 x 取值变化(模型规模 N、计算量 C,有时还包括数据集大小 D)。
- 估计最优模型规模 Nopt(C) 作为计算量的函数,发现 Nopt ∝ C^β,β 约等于 0.7,在各领域一致。
- 使用领域特定的编码(像素标记、VQ 码)以及稀疏/密集注意力模式来管理上下文长度和计算量。
- 将不可约损失 L∞ 解释为真分布的熵的大致值,将可约损失解释为近似的 D_KL(True||Model)。
- 考察特定领域现象,如多模态模型中的互信息和数学问题中的外推行为。
实验结果
研究问题
- RQ1在使用自回归 Transformers 时,语言、图像、视频、多模态和数学领域是否都存在 L = L∞ + (x0/x)^{αx} 的尺度规律?
- RQ2最优模型规模如何随计算预算在各领域变化,指数 β 是否具有普遍性?
- RQ3在这些领域中,不可约损失与可约损失的含义是什么,以及这对数据熵和模型 KL 散度有何启示?
- RQ4尺度规律对如 ImageNet 微调、多模态信息增益以及数学问题求解的外推等任务有何下游含义?
- RQ5数据结构和上下文长度如何影响位置相关的损失以及尺度行为?
主要发现
- 形式为 L = L∞ + (x0/x)^{αx} 的尺度规律在语言、图像、视频、多模态和数学领域成立。
- 最优模型规模随计算量的关系在各模态中为 Nopt ∝ C^{0.7}。
- 不可约损失 L∞ 反映数据熵,而可约损失反映真实分布与模型分布之间的 KL 散度,后者在生成损失接近 L∞ 时往往仍具有信息性。
- 多模态模型在模型规模增大时,互信息和信息增益呈平滑的尺度化,并且 Infogain 指标随规模增加而上升。
- 在数学中,外推性能取决于训练分布的表现,而非模型规模本身,表明仅靠增大模型规模对泛化提升有限。
- 对生成性图像模型进行 ImageNet 微调时,分类损失随着模型规模的继续平滑缩放,即使在接近生成不可约损失时也如此。
- 相对于语言,图像和视频更偏好更深但更窄的模型结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。