[论文解读] Learning Factored Representations in a Deep Mixture of Experts
本文提出深度专家混合模型(DMoE),一种深层神经网络架构,通过堆叠门控网络在每一层动态地将输入路由到不同专家组合,实现有效专家数量的指数级增长,同时保持较低的计算成本。该模型能够学习解耦表示——例如在MNIST数据中分离出位置和类别因素,在单音素数据中识别出不同的语音模式——并通过条件路由实现所有专家组合的高效且均衡使用。
Mixtures of Experts combine the outputs of several "expert" networks, each of which specializes in a different part of the input space. This is achieved by training a "gating" network that maps each input to a distribution over the experts. Such models show promise for building larger networks that are still cheap to compute at test time, and more parallelizable at training time. In this this work, we extend the Mixture of Experts to a stacked model, the Deep Mixture of Experts, with multiple sets of gating and experts. This exponentially increases the number of effective experts by associating each input with a combination of experts at each layer, yet maintains a modest model size. On a randomly translated version of the MNIST dataset, we find that the Deep Mixture of Experts automatically learns to develop location-dependent ("where") experts at the first layer, and class-specific ("what") experts at the second layer. In addition, we see that the different combinations are in use when the model is applied to a dataset of speech monophones. These demonstrate effective use of all expert combinations.
研究动机与目标
- 开发一种可扩展的深度学习架构,在模型规模较大的情况下仍能保持较低的推理成本,通过动态地将输入路由到专家子集来实现。
- 实现因子化表示学习,使不同层专注于不同的数据因子(例如图像数据中的空间位置和类别身份)。
- 通过运行分配约束防止门控坍塌,确保训练过程中所有专家的使用保持均衡。
- 在视觉和语音任务上评估该模型,证明其在真实数据中有效利用了所有专家组合。
提出的方法
- DMoE 使用多层门控网络和专家网络,其中每一层的门控网络根据前一层输出选择专家的加权组合。
- 每一层的输出计算为专家输出的加权和:$ z^{l} = \sum_{i} g^{l}_{i}(z^{l-1}) f^{l}_{i}(z^{l-1}) $,门控权重被归一化使其总和为一。
- 在训练过程中应用运行总和约束:若某专家的累计分配量超过平均值的裕量 $ m $,则将其门控权重设为零,并重新归一化分布,以防止过度使用。
- 最终输出通过在最后一层混合输出上应用Softmax层生成,实现分类。
- 专家实现为单层ReLU网络,门控网络为参数较少的两层ReLU网络,隐藏单元数量有限。
- 使用随机梯度下降进行训练,并引入平衡约束,以避免出现少数专家主导的退化解。
实验结果
研究问题
- RQ1深度专家混合模型能否学习解耦表示,例如在图像数据中分离出空间位置和类别身份?
- RQ2DMoE 架构是否能有效利用跨层的所有可能专家组合,而非仅依赖少数组合?
- RQ3尽管存在门控坍塌的风险,该模型能否在训练过程中保持专家使用的均衡性?
- RQ4与标准MoE和DNN基线相比,DMoE在真实语音数据上的表现如何?
- RQ5该模型能否通过条件计算实现低计算成本的同时保持具有竞争力的性能?
主要发现
- 在抖动MNIST数据集上,DMoE 在第一层根据输入的平移(位置)进行路由,在第二层根据类别进行路由,展示了因子化表示学习的能力。
- 在 4×100-4×20 架构下,DMoE 在抖动MNIST数据集上达到 0.85 的测试误差,优于单专家基线和拼接专家基线。
- 在单音素语音数据上,DMoE 达到 0.55 的测试集音素错误率,与基线相当,但专家使用在不同组合间更加均衡。
- 门控权重的可视化显示,所有专家组合均被积极使用,无单一组合主导路由过程。
- 联合分配分析表明,第二层专家的选择与第一层选择的依赖关系微弱,表明路由具有多样性和独立性。
- 由于运行分配约束的存在,模型在训练过程中保持稳定,防止了门控坍塌,并确保了专家使用的均衡性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。