QUICK REVIEW

[论文解读] Deep Multi-task Representation Learning: A Tensor Factorisation Approach

Yongxin Yang, Timothy M. Hospedales|arXiv (Cornell University)|May 20, 2016

Tensor decomposition and applications被引用 105

一句话总结

本文提出 DMTRL，一种深度多任务学习框架，通过张量分解（Tucker、TT，以及 Last Axis Flattening）学习每一层的共享结构，从而在深度网络中实现端到端的知识共享，而无需手动指定共享模式。

ABSTRACT

Most contemporary multi-task learning methods assume linear models. This setting is considered shallow in the era of deep learning. In this paper, we present a new deep multi-task representation learning framework that learns cross-task sharing structure at every layer in a deep network. Our approach is based on generalising the matrix factorisation techniques explicitly or implicitly used by many conventional MTL algorithms to tensor factorisation, to realise automatic learning of end-to-end knowledge sharing in deep networks. This is in contrast to existing deep learning approaches that need a user-defined multi-task sharing strategy. Our approach applies to both homogeneous and heterogeneous MTL. Experiments demonstrate the efficacy of our deep multi-task representation learning in terms of both higher accuracy and fewer design choices.

研究动机与目标

推动端到端的深度多任务学习，超越浅层线性模型。
将基于矩阵分解的多任务学习推广到张量分解，以实现跨层和跨输出在深度神经网络中的共享。
使在每一层自动学习共享结构成为可能，适用于同质和异质的多任务学习任务。
提供一个可扩展的框架，减少用户设定的共享设计，并支持卷积层和全连接层。

提出的方法

将任务模型表示为编码共享参数和任务特定参数的高阶张量。
对权重张量在层间进行分解，应用Tucker分解、张量- Train分解，或Last Axis Flattening，以实现共享模式。
在前向传播期间从学习到的因式分解组件合成权重张量，使反向传播不需要不可微的步骤。
通过将卷积核视为具有共享因子的高阶张量，将共享机制从全连接层扩展到卷积层。
使用标准反向传播训练；初始化可以利用基于 STL 的分解权重，并具有一个最大重构误差的超参数 epsilon=10%。

实验结果

研究问题

RQ1在同质和异质的多任务学习设置中，深度神经网络如何在每一层自动学习跨任务的共享？
RQ2张量分解是否能够提供一个原则性、数据驱动的共享机制，减少对深度多任务学习的手动架构搜索？
RQ3Tucker、TT 和 Last Axis Flattening 如何在 DNN 中跨任务和跨输出共享参数？
RQ4DMTRL 方法是否在多样化数据集上优于单任务学习，并与精心设计的用户定义 MTL 基线相匹配或超越？
RQ5在深度多任务学习中，学习到的共享对性能与架构设计的实际影响是什么？

主要发现

在评估的任务上，DMTRL 方法持续优于单任务学习。
DMTRL-Tucker 和 DMTRL-TT 与最佳的用户定义 MTL 架构相当甚至超越；数据充足时也可比拟。
该方法学习的逐层共享在较高层逐渐减少，与直觉一致，即较低层比顶层更具共享性。
在同质、异质及多语言字母识别任务中，DMTRL 变体相对于 STL 展现出稳健的性能提升，并且与 UD-MTL 的结果具有竞争力。
共享强度可通过 S-like 因子矩阵进行量化，显示更深的层往往共享更少，而较早的层共享更多。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。