[论文解读] Deep Multi-task Representation Learning: A Tensor Factorisation Approach
本文提出 DMTRL,一种深度多任务学习框架,通过张量分解(Tucker、TT,以及 Last Axis Flattening)学习每一层的共享结构,从而在深度网络中实现端到端的知识共享,而无需手动指定共享模式。
Most contemporary multi-task learning methods assume linear models. This setting is considered shallow in the era of deep learning. In this paper, we present a new deep multi-task representation learning framework that learns cross-task sharing structure at every layer in a deep network. Our approach is based on generalising the matrix factorisation techniques explicitly or implicitly used by many conventional MTL algorithms to tensor factorisation, to realise automatic learning of end-to-end knowledge sharing in deep networks. This is in contrast to existing deep learning approaches that need a user-defined multi-task sharing strategy. Our approach applies to both homogeneous and heterogeneous MTL. Experiments demonstrate the efficacy of our deep multi-task representation learning in terms of both higher accuracy and fewer design choices.
研究动机与目标
- 推动端到端的深度多任务学习,超越浅层线性模型。
- 将基于矩阵分解的多任务学习推广到张量分解,以实现跨层和跨输出在深度神经网络中的共享。
- 使在每一层自动学习共享结构成为可能,适用于同质和异质的多任务学习任务。
- 提供一个可扩展的框架,减少用户设定的共享设计,并支持卷积层和全连接层。
提出的方法
- 将任务模型表示为编码共享参数和任务特定参数的高阶张量。
- 对权重张量在层间进行分解,应用Tucker分解、张量- Train分解,或Last Axis Flattening,以实现共享模式。
- 在前向传播期间从学习到的因式分解组件合成权重张量,使反向传播不需要不可微的步骤。
- 通过将卷积核视为具有共享因子的高阶张量,将共享机制从全连接层扩展到卷积层。
- 使用标准反向传播训练;初始化可以利用基于 STL 的分解权重,并具有一个最大重构误差的超参数 epsilon=10%。
实验结果
研究问题
- RQ1在同质和异质的多任务学习设置中,深度神经网络如何在每一层自动学习跨任务的共享?
- RQ2张量分解是否能够提供一个原则性、数据驱动的共享机制,减少对深度多任务学习的手动架构搜索?
- RQ3Tucker、TT 和 Last Axis Flattening 如何在 DNN 中跨任务和跨输出共享参数?
- RQ4DMTRL 方法是否在多样化数据集上优于单任务学习,并与精心设计的用户定义 MTL 基线相匹配或超越?
- RQ5在深度多任务学习中,学习到的共享对性能与架构设计的实际影响是什么?
主要发现
- 在评估的任务上,DMTRL 方法持续优于单任务学习。
- DMTRL-Tucker 和 DMTRL-TT 与最佳的用户定义 MTL 架构相当甚至超越;数据充足时也可比拟。
- 该方法学习的逐层共享在较高层逐渐减少,与直觉一致,即较低层比顶层更具共享性。
- 在同质、异质及多语言字母识别任务中,DMTRL 变体相对于 STL 展现出稳健的性能提升,并且与 UD-MTL 的结果具有竞争力。
- 共享强度可通过 S-like 因子矩阵进行量化,显示更深的层往往共享更少,而较早的层共享更多。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。