QUICK REVIEW

[论文解读] Multi-Task Learning with Deep Neural Networks: A Survey

Michael Crawshaw|arXiv (Cornell University)|Sep 10, 2020

Domain Adaptation and Few-Shot Learning参考文献 168被引用 401

一句话总结

对深度多任务学习（MTL）的全面综述，涵盖架构、优化和任务关系学习，涵盖 NLP、计算机视觉和强化学习的视角与基准摘要。

ABSTRACT

Multi-task learning (MTL) is a subfield of machine learning in which multiple tasks are simultaneously learned by a shared model. Such approaches offer advantages like improved data efficiency, reduced overfitting through shared representations, and fast learning by leveraging auxiliary information. However, the simultaneous learning of multiple tasks presents new design and optimization challenges, and choosing which tasks should be learned jointly is in itself a non-trivial problem. In this survey, we give an overview of multi-task learning methods for deep neural networks, with the aim of summarizing both the well-established and most recent directions within the field. Our discussion is structured according to a partition of the existing deep MTL techniques into three groups: architectures, optimization methods, and task relationship learning. We also provide a summary of common multi-task benchmarks.

研究动机与目标

总结深度 MTL 的设计、挑战与进展。
将 MTL 方法分为架构、优化和任务关系学习。
突出在共享与任务特异组件之间取得平衡以降低负迁移的架构。
讨论优化策略以及如何学习和利用任务关系。
提供跨领域常见 MTL 基准的概述。

提出的方法

将 MTL 技术归类为架构设计、优化方法和任务关系学习。
描述架构模板（共享干线、跨交流、预测蒸馏、任务路由、单任务化）以及领域特定变体（视觉、NLP、RL）。
解释跨任务信息流策略，包括注意力模块、门控与融合（如 Cross-Stitch、NDDR-CNN）。
总结减轻负迁移的优化方法，包括对抗特征分离和层次/级联监督。
讨论任务关系与表示（嵌入、迁移亲和性）以及领域特定的适应（基于 BERT 的 MT-DNN）。
回顾在计算机视觉、NLP 和 RL 领域的多任务基准与领域特定应用。

实验结果

研究问题

RQ1哪些架构设计和机制能够在多任务之间实现有效的共享表示？
RQ2优化策略与损失函数如何在深度 MTL 中缓解负迁移？
RQ3哪些机制能够学习并利用任务关系以提升联合表现？
RQ4在视觉、NLP 和 RL 领域，深度 MTL 的主流基准与评估做法是什么？
RQ5基于 Transformer 的和多模态方法如何影响深度 MTL 架构？

主要发现

共享干线架构、跨话交互和任务特异模块实现信息共享的平衡，以减少负迁移。
预测蒸馏与多尺度任务交互可以提升相关任务的性能。
对抗性与正交性为基础的分离可以强化任务特异与共享特征表示。
任务路由层实现对多任务的可扩展共享，相较传统 Cross-Stitch 网络有性能提升。
基于 BERT 的共享嵌入（MT-DNN）在发表时在多项 GLUE 任务上达到最先进水平。
级联监督与分层任务训练提升 NLP 中从低级到高级任务的整合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。