Skip to main content
QUICK REVIEW

[论文解读] Towards Understanding Mixture of Experts in Deep Learning

Zixiang Chen, Yihe Deng|arXiv (Cornell University)|Aug 4, 2022
Mobile Crowdsensing and Crowdsourcing被引用 22
一句话总结

本论文从理论和实证角度分析为什么稀疏 MoE 层会带来多样化,以及路由器如何学习以簇中心为导向的路由。研究表明在簇结构数据上,非线性 MoEs 比单一专家表现更好,且路由器学习将输入分派给专业化的专家。

ABSTRACT

The Mixture-of-Experts (MoE) layer, a sparsely-activated model controlled by a router, has achieved great success in deep learning. However, the understanding of such architecture remains elusive. In this paper, we formally study how the MoE layer improves the performance of neural network learning and why the mixture model will not collapse into a single model. Our empirical results suggest that the cluster structure of the underlying problem and the non-linearity of the expert are pivotal to the success of MoE. To further understand this, we consider a challenging classification problem with intrinsic cluster structures, which is hard to learn using a single expert. Yet with the MoE layer, by choosing the experts as two-layer nonlinear convolutional neural networks (CNNs), we show that the problem can be learned successfully. Furthermore, our theory shows that the router can learn the cluster-center features, which helps divide the input complex problem into simpler linear classification sub-problems that individual experts can conquer. To our knowledge, this is the first result towards formally understanding the mechanism of the MoE layer for deep learning.

研究动机与目标

  • 激发并正式化关于为什么 MoE 会多样化而不是收敛到单一模型的问题。
  • 研究具有内在簇结构的分类数据混合,以理解 MoE 的优势。
  • 证明具有稀疏路由的非线性两层卷积神经网络专家在簇结构数据上可实现近乎完美的测试准确率。
  • 理论与实证上证明,路由器能够学习簇中心特征以分割输入,从而实现专家的专业化。

提出的方法

  • 定义一个具有 M 个专家的 MoE 层(两层 CNN)以及通过 top-1 路由(开关路由)的稀疏路由器。
  • 使用带有随机路由噪声的扰动经验损失来稳定训练。
  • 分析具有簇结构的数据分布,其中每个簇可由专门的子集专家学习。
  • 证明一个单一的两层 CNN 专家在所提出的数据上不能超过 87.5% 的测试准确率(定理 4.1)。
  • 证明在特定条件下,具有三次方激活的非线性稀疏 MoE 可以实现接近 100% 的训练精度和接近于零的测试误差(定理 4.2)。
  • 提供基于探索的分析,展示专家如何按簇进行专业化,以及路由器如何学习簇中心特征。

实验结果

研究问题

  • RQ1为什么 MoE 专家会多样化,而不是收敛为一个单一模型?
  • RQ2带有稀疏门控的 MoE 与非线性专家是否能够高效地学习簇结构数据?
  • RQ3路由器如何学习将输入分派给合适的专家,专家是否对簇进行专业化?
  • RQ4使用非线性与线性专家对学习簇结构任务有何影响?

主要发现

  • 在所提出的簇结构分布上,单一的两层 CNN 专家不能达到超过 87.5% 的测试精度(定理 4.1)。
  • 一组线性专家的混合比单一专家有改进,但仍难以恢复簇结构,且表现可能比非线性 MoEs 更差。
  • 在适当设置下,具有三次方激活的两层 CNN 专家的稀疏门控 MoE 可实现近 100% 的训练准确率和近零的测试误差(定理 4.2)。
  • 路由器学习簇中心特征并将每个簇路由到专用专家,每个专家至少对一个簇进行专业化。
  • 对合成数据的实证结果显示,非线性 MoE 的派发熵接近零,表明簇明确专门化,而线性 MoE 则保留较高的熵。
  • 在 CIFAR-10 和 CIFAR-10-Rotate 上的实验表明,MoE 能在标准任务上达到甚至超过单一模型,并更好地处理簇结构数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。