[论文解读] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
引入一个稀疏门控的专家混成层(MoE),拥有数千个专家,能够大规模扩展模型容量(高达137B参数),同时保持可观的计算成本,已在语言建模和机器翻译上进行演示。显示出在容量方面的显著提升,同时效率略有下降。
The capacity of a neural network to absorb information is limited by its number of parameters. Conditional computation, where parts of the network are active on a per-example basis, has been proposed in theory as a way of dramatically increasing model capacity without a proportional increase in computation. In practice, however, there are significant algorithmic and performance challenges. In this work, we address these challenges and finally realize the promise of conditional computation, achieving greater than 1000x improvements in model capacity with only minor losses in computational efficiency on modern GPU clusters. We introduce a Sparsely-Gated Mixture-of-Experts layer (MoE), consisting of up to thousands of feed-forward sub-networks. A trainable gating network determines a sparse combination of these experts to use for each example. We apply the MoE to the tasks of language modeling and machine translation, where model capacity is critical for absorbing the vast quantities of knowledge available in the training corpora. We present model architectures in which a MoE with up to 137 billion parameters is applied convolutionally between stacked LSTM layers. On large language modeling and machine translation benchmarks, these models achieve significantly better results than state-of-the-art at lower computational cost.
研究动机与目标
- 通过条件计算在不成比例增加计算量的情况下,显著提升模型容量。
- 提出并实现一个带有数千个专家的稀疏门控Mixture-of-Experts层。
- 在语言建模和机器翻译基准上评估MoE增强的架构。
- 解决大型MoE系统中的实际训练挑战,如批量处理、带宽和负载均衡。
提出的方法
- 定义一个包含多个专家网络的MoE层,以及一个可训练的门控网络,为每个输入选择一个稀疏子集的专家。
- 使用softmax或带噪声的top-k门控来产生稀疏的门控权重,使得可以按样本选择专家。
- 通过反向传播联合训练门控和专家网络,并引入机制以促进负载均衡和缓解专家支配。
- 通过混合数据与模型并行性来应对性能挑战,以增加MoE计算的有效批量大小。
- 在堆叠的LSTM层之间对MoE进行卷积式应用,以实现逐位置的门控决策。
- 尝试在LSTM层之间嵌入MoE层的架构,包括极大MoE容量(数千个专家)。
实验结果
研究问题
- RQ1如何通过稀疏门控的MoE层实现条件计算来扩展神经网络容量,同时保持计算效率?
- RQ2哪些门控策略(softmax 与带噪声的top-k)和架构放置在语言建模和翻译任务上能获得最佳性能?
- RQ3MoE为基础的模型是否能在现实计算预算下在大规模语言建模和机器翻译基准上达到最先进的结果?
- RQ4在训练与部署中会出现哪些实际挑战(批处理、带宽、负载均衡),以及如何缓解?
主要发现
- 具有数千个专家的MoE模型在较低计算成本下在大型语言建模基准上取得显著优于当前最先进的方法的结果。
- 一个10亿词的语言建模设置显示出在大型MoE容量下可达到高达24%的困惑度改进。
- 在1000亿词的Google News语料上,最多可达137B参数的MoE模型持续改进困惑度,且性能提升与数据规模相关。
- 在机器翻译方面,MoE增强的GNMT式模型在多对语言上相对于强基线实现BLEU提升,并在某些配置中训练时间减少。
- 多语言翻译实验显示对多语言基线的显著提升,在大多数语言对上困惑度和BLEU均有增益。
- 本文演示了通过扩展硬件并使用基于MoE的条件计算来训练万亿参数模型的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。