QUICK REVIEW

[论文解读] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Nan Du, Yanping Huang|arXiv (Cornell University)|Dec 13, 2021

Topic Modeling被引用 168

一句话总结

GLaM 使用稀疏激活的专家混合（mixture-of-experts）来将语言模型扩展到高达1.2万亿参数，在在29个任务上实现的零-shot/单-shot/少量-shot性能优于GPT-3，同时在推断时的训练能耗约为1/3，FLOPs的一半。

ABSTRACT

Scaling language models with more data, compute and parameters has driven significant progress in natural language processing. For example, thanks to scaling, GPT-3 was able to achieve strong results on in-context learning tasks. However, training these large dense models requires significant amounts of computing resources. In this paper, we propose and develop a family of language models named GLaM (Generalist Language Model), which uses a sparsely activated mixture-of-experts architecture to scale the model capacity while also incurring substantially less training cost compared to dense variants. The largest GLaM has 1.2 trillion parameters, which is approximately 7x larger than GPT-3. It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference, while still achieving better overall zero-shot and one-shot performance across 29 NLP tasks.

研究动机与目标

推动可扩展的语言建模，相比密集架构降低训练成本和能耗。
探索稀疏激活的 MoE 层以在不成比例增加计算量的情况下提升模型容量。
在广泛的 NLU/NLG 基准套件上评估零-shot、单-shot和少样本的性能。
评估数据质量、扩展行为，以及 MoE 与密集模型之间的效率权衡。

提出的方法

用包含多个专家的 Mixture-of-Experts (MoE) 层替换每隔一层的 Transformer 的前馈网络。
使用门控网络为每个 token 选择两个最佳专家，带来大约 O(E^2) 的组合容量，但每个 token 只有两个激活的专家。
在非 MoE 层采用逐层相对位置偏置以及 GaLU/GeLU 类激活，以提高效率和性能。
在一个1.6万亿标记的高质量数据集上进行训练，使用质量分类器来筛选网络语料并与 Wikipedia、对话、论坛、书籍和新闻按指定混合权重混合。
使用 Adafactor 进行优化，应用 MoE 辅助负载平衡损失，并对大模型采用 2D 张量分片。

实验结果

研究问题

RQ1稀疏激活的 MoE 语言模型是否能够在将训练成本和能耗相比密集模型降低的同时扩展到万亿级参数规模？
RQ2基于 MoE 的解码器在类似有效 FLOPs 下，是否在广泛的 NLP 任务上相对于密集等效模型提供更优的零/单/少量-shot 性能？
RQ3数据质量如何影响大型 MoE 语言模型的性能？
RQ4增加 MoE 层中的专家数量时，可扩展性和效率之间存在哪些权衡？
RQ5与密集模型相比，MoE 模型在知识导向任务和开放域问答上的表现如何？

主要发现

GLaM 具有 1.2T 参数和每个 MoE 层 64 个专家，实际上每个 token 激活约 96.6B 参数，但在零/一/少-shot 设置下，在 29 项基准测试中实现竞争力或优于 GPT-3 的性能。
GLaM 仅需要大约 GPT-3 的1/3 训练能量，推断时每个 token 的 FLOPs 约为 GPT-3 的一半。
GLaM (64B/64E) 在平均层面超过 GPT-3，跨越 7 个基准类别，在 7 个类别中有 6 个类别具有优势。
数据质量对性能有正向影响；在经过筛选的高质量数据上训练得到的下游结果优于在未筛选的大规模数据集上训练。
MoE 模型展示出数据效率，在相当的有效 FLOPs 下用更少数据达到更强的性能，并且在更大规模时显示出相对于密集模型的扩展优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。