Skip to main content
QUICK REVIEW

[论文解读] Unified Scaling Laws for Routed Language Models

Aidan Clark, Diego de las Casas|arXiv (Cornell University)|Feb 2, 2022
Topic Modeling被引用 23
一句话总结

该论文推导了 Routing Networks 的缩放规律,使参数量与计算解耦,分析三种路由技术,并引入 Effective Parameter Count 来比较路由模型与密集模型。它显示路由在不同规模上提升性能,并提供在何时以及如何使用路由的指南。

ABSTRACT

The performance of a language model has been shown to be effectively modeled as a power-law in its parameter count. Here we study the scaling behaviors of Routing Networks: architectures that conditionally use only a subset of their parameters while processing an input. For these models, parameter count and computational requirement form two independent axes along which an increase leads to better performance. In this work we derive and justify scaling laws defined on these two variables which generalize those known for standard language models and describe the performance of a wide range of routing architectures trained via three different techniques. Afterwards we provide two applications of these laws: first deriving an Effective Parameter Count along which all models scale at the same rate, and then using the scaling coefficients to give a quantitative comparison of the three routing techniques considered. Our analysis derives from an extensive evaluation of Routing Networks across five orders of magnitude of size, including models with hundreds of experts and hundreds of billions of parameters.

研究动机与目标

  • 研究路由架构在语言模型中跨越数量级的缩放行为。
  • 描述性能如何随 experts 数量和密集模型大小变化。
  • 将缩放律推广到不同的路由技术和与计算相关的变量。
  • 引入 Effective Parameter Count 的概念,以统一密集和路由模型。

提出的方法

  • 研究三种路由技术:Sinkhorn-base sparse MoE (s-base), input-based deterministic hash routing (hash), and routing via reinforcement learning (rl-r).
  • 提出缩放律,其中 log loss 在 log 模型大小 N 与 E(experts)的饱和函数的对数之间呈双线性。
  • 将缩放推广至推理计算 F 和参数量 P,使用变量 F 和 B = P/F。
  • 将所提的定律拟合到来自多种 E 值的、参数量高达 200B 的模型的经验数据。
  • 引入一个 E-saturation 变换,以限制 E 的缩放并实现跨架构比较。
  • 演示一个 Effective Parameter Count,使路由模型与等效性能的密集模型相映射。

实验结果

研究问题

  • RQ1当改变专家数量和密集参数时,语言模型中的路由架构如何缩放?
  • RQ2不同的路由技术是否遵循共同的缩放律?它们的系数如何比较?
  • RQ3是否可以用推理计算 F 和参数量 P 来表述一个统一的规律,以在跨体系结构上实现泛化?
  • RQ4在不同尺度下比较路由与密集模型的有意义度量是什么(Effective Parameter Count)?

主要发现

  • 路由在所有测试技术中在不同模型大小和变体下提升了性能。
  • 基于强化学习的路由(rl-r)在与最先进技术相比中同样有效,尽管历史上存在担忧。
  • 缩放律能够准确描述带有双线性(N,E)或 kappa 转换变量的路由网络,并扩展到(F,B)表示。
  • 一个 Effective Parameter Count(epc)将路由模型映射到密集模型,在单一幂律下统一性能。
  • s-base 在缩放上始终优于 rl-r 和 hash,随着 N 增大收益递减。
  • 存在一个阈值 Ncutoff,超过后路由不再提供性能提升,且 epcmax 随 token exposure 增长;阈值取决于 Emax 和数据集大小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。