QUICK REVIEW

[论文解读] Deep Mixture of Experts via Shallow Embedding

Xin Wang, Fisher Yu|arXiv (Cornell University)|Jun 5, 2018

Domain Adaptation and Few-Shot Learning参考文献 45被引用 27

一句话总结

本文提出 DeepMoE，一种深度专家混合架构，通过浅层嵌入网络和多头稀疏门控机制，在卷积神经网络中动态稀疏化并重新校准通道级特征。通过联合训练基础网络、嵌入网络和门控网络，并施加稀疏性和多样性正则化，DeepMoE 在计算量减少的同时实现了比标准网络更高的准确率，在 ImageNet 上比 ResNet 提高了 1% 的 top-1 准确率，同时保持更低的 FLOPs。

ABSTRACT

Larger networks generally have greater representational power at the cost of increased computational complexity. Sparsifying such networks has been an active area of research but has been generally limited to static regularization or dynamic approaches using reinforcement learning. We explore a mixture of experts (MoE) approach to deep dynamic routing, which activates certain experts in the network on a per-example basis. Our novel DeepMoE architecture increases the representational power of standard convolutional networks by adaptively sparsifying and recalibrating channel-wise features in each convolutional layer. We employ a multi-headed sparse gating network to determine the selection and scaling of channels for each input, leveraging exponential combinations of experts within a single convolutional network. Our proposed architecture is evaluated on four benchmark datasets and tasks, and we show that Deep-MoEs are able to achieve higher accuracy with lower computation than standard convolutional networks.

研究动机与目标

设计一种深度专家混合（DeepMoE）架构，实现在卷积神经网络中基于样本的动态特征路由。
解决深层 MoE 堆叠中专家选择不可微分以及专家组合退化的问题。
在通过稀疏性和通道级重新校准降低计算成本的同时，保持深层网络的表达能力。
在图像分类和语义分割任务中，提升模型准确率和效率，优于标准卷积神经网络和先前的 MoE 方法。

提出的方法

一个具有 Softmax 输出层的浅层嵌入网络，用于在固定专家集合上生成潜在混合权重。
这些潜在权重被输入到具有 ReLU 激活函数的多头稀疏门控网络中，以选择并重新加权每个卷积层中的通道。
通过在嵌入网络上施加辅助分类损失，以及在门控网络输出上施加稀疏正则化，实现联合训练，以促进多样性与稀疏性。
提出两种变体：wide-DeepMoE（通道数加倍，并将层替换为 MoE）和 narrow-DeepMoE（直接将标准层替换为 MoE）。
该架构支持动态、样本特定的特征路由，使得每个输入仅计算部分通道。
理论分析表明，DeepMoE 在减少计算量的同时，保留了深层网络的超指数表达能力。

实验结果

研究问题

RQ1尽管专家选择不可微，能否实现端到端联合训练深度专家混合架构？
RQ2通过稀疏门控实现的动态通道级路由是否能在降低计算成本的同时提升深层网络的准确率？
RQ3所提出的浅层嵌入网络如何促进各层之间稳定且多样的专家使用？
RQ4DeepMoE 是否能有效泛化到图像分类之外的密集预测任务，如语义分割？
RQ5架构设计选择（如加宽策略、层位置）对模型准确率和效率有何影响？

主要发现

DeepMoE 在 ImageNet2012 基准上比 ResNet 提高了 1% 的 top-1 准确率，同时降低了 FLOPs。
在 CityScapes 上，高效版本 wide-DeepMoE-50-A 的 mIoU 比基线提升 1.5%，FLOPs 仅略有增加。
更准确的 wide-DeepMoE-50-B 变体在 FLOPs 更低的情况下，比宽基线模型 mIoU 提升近 2%。
将所有卷积层加宽（W13-All）的准确率高于仅加宽顶层或底层的策略，即使参数量相同。
同时控制 FLOPs 和参数量可提升所有加宽策略下的准确率，且 W13-All 始终为最佳配置。
所提出的架构成功解析了数据中的粗粒度类别结构，如嵌入网络和门控网络行为分析所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。