Skip to main content
QUICK REVIEW

[论文解读] An Overview of Multi-Task Learning in Deep Neural Networks

Sebastian Ruder|arXiv (Cornell University)|Jun 15, 2017
Domain Adaptation and Few-Shot Learning参考文献 45被引用 2,413
一句话总结

对深度神经网络中的多任务学习(MTL)进行全面综述,详述硬参数共享与软参数共享、MTL作用机制、历史与近期文献,以及在选择辅助任务方面的指南。

ABSTRACT

Multi-task learning (MTL) has led to successes in many applications of machine learning, from natural language processing and speech recognition to computer vision and drug discovery. This article aims to give a general overview of MTL, particularly in deep neural networks. It introduces the two most common methods for MTL in Deep Learning, gives an overview of the literature, and discusses recent advances. In particular, it seeks to help ML practitioners apply MTL by shedding light on how MTL works and providing guidelines for choosing appropriate auxiliary tasks.

研究动机与目标

  • 将多任务学习视为一种归纳迁移形式,通过利用相关任务来提升泛化能力。
  • 概述两种核心的深度学习 MTL 方法(硬参数共享和软参数共享)及其权衡。
  • 综述支撑 MTL 效果及正则化效应的机制与文献。
  • 讨论如何在 MTL 中为主任务选择和设计辅助任务以获得收益。

提出的方法

  • 解释硬参数共享,在其中公共隐藏层在任务之间共享、但输出头为任务特定。
  • 解释软参数共享,在每个任务有自己的模型,但参数被正则化以在任务之间保持相似性。
  • 描述正则化机制及其与多任务设置中的块稀疏和低秩表示的关系。
  • 讨论隐式数据增强、注意力聚焦、窃听以及表示偏差等概念,作为 MTL 有效的原因。
  • 对非神经网络的 MTL 文献进行调查,以与深度学习方法进行对比。
  • 介绍最近的深度学习 MTL 方法(如 Deep Relationship Networks、Cross-stitch Networks、Sluice Networks)及其学习“共享内容”的目标。

实验结果

研究问题

  • RQ1在深度神经网络中实现 MTL 的主要方法是什么?各自的优点是什么?
  • RQ2在实践中,MTL 的泛化收益可通过哪些机制来解释?
  • RQ3最近的深度学习方法如何推动学习“共享内容”的能力以及建模任务层次结构?
  • RQ4在实际应用中,哪些辅助任务更能实现对主任务的 MTL 增益?

主要发现

  • 硬参数共享仍是神经网络 MTL 的标准方法,相较于任务特定头可降低过拟合。
  • 软参数共享通过正则化使任务模型相关联,同时保持任务特异性。
  • MTL 提供了隐式数据增强、注意力聚焦、窃听、表示偏差以及正则化等机制,解释了泛化能力的提升。
  • 最近的深度学习 MTL 研究致力于学习共享内容和建模任务层次结构,超越固定的共享方案。
  • 辅助任务可为相关、对抗或提示型,其设计会在 NLP、计算机视觉和语音等领域影响 MTL 的收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。