[论文解读] Modular Deep Learning
一个关于模块化深度学习架构的综述,详细介绍模块、路由、聚合和训练组件如何协同工作,以在自然语言处理、计算机视觉、语音和强化学习任务中实现正向迁移、组装式泛化和参数效率。
Transfer learning has recently become the dominant paradigm of machine learning. Pre-trained models fine-tuned for downstream tasks achieve better performance with fewer labelled examples. Nonetheless, it remains unclear how to develop models that specialise towards multiple tasks without incurring negative interference and that generalise systematically to non-identically distributed tasks. Modular deep learning has emerged as a promising solution to these challenges. In this framework, units of computation are often implemented as autonomous parameter-efficient modules. Information is conditionally routed to a subset of modules and subsequently aggregated. These properties enable positive transfer and systematic generalisation by separating computation from routing and updating modules locally. We offer a survey of modular architectures, providing a unified view over several threads of research that evolved independently in the scientific literature. Moreover, we explore various additional purposes of modularity, including scaling language models, causal inference, programme induction, and planning in reinforcement learning. Finally, we report various concrete applications where modularity has been successfully deployed such as cross-lingual and cross-modal knowledge transfer. Related talks and projects to this survey, are available at https://www.modulardeeplearning.com/.
研究动机与目标
- 解释模块化为什么有助于迁移学习和系统性泛化。
- 提供一个统一的模块化深度学习分类体系,涵盖计算、路由、聚合和训练。
- 评估现有的模块实现、路由策略和聚合机制,以及它们如何与训练设置相互作用。
- 突出在自然语言处理、计算机视觉、语音和强化学习中模块化的应用及未来方向。
提出的方法
- 定义由计算、路由和聚合块组成的通用模块函数。
- 将计算分类为参数、输入和函数组合,以及超网络(hypernetworks)。
- 区分固定路由与学习路由,以及软路由与硬路由,包括前k选择和专家混合(Mixture-of-Experts,MoE)变体。
- 描述聚合策略,从确定性加权到基于注意力的可学习聚合器。
- 讨论训练设置:联合多任务学习、持续学习以及对预训练模型的事后模块化。
- 提供对模块化函数前向传播的统一记号和算法视角(算法1)。
实验结果
研究问题
- RQ1模块化架构如何在多任务和持续学习中减轻干扰与遗忘?
- RQ2哪些设计选项(计算、路由、聚合)能实现正向迁移和系统性泛化?
- RQ3各种模块化方法在语言、模态和任务之间如何扩展规模?
- RQ4使用预训练骨干网络部署模块组件的实际训练方案有哪些?
- RQ5哪些应用展示了模块化在迁移学习和泛化方面的优势?
主要发现
- 模块化将计算与路由及更新解耦,允许局部模块更新并提高对分布变动的鲁棒性。
- 统一视角显示许多方法是计算、路由、聚合和训练的组合,澄清了文献之间的联系。
- 稀疏和低秩适配器、基于提示的模块,以及基于超网络的模块提供参数高效微调和可扩展增长。
- 硬路由通过选择性模块激活实现条件计算和模块化专门化,而软路由提供对梯度友好的训练。
- 模块化支持跨语言、跨模态的知识迁移以及在自然语言处理、计算机视觉和语音等领域的更广泛迁移学习应用。
- 模块化还为分层强化学习、程序仿真、因果发现和通用智能体提供启示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。