[论文解读] Multi-Task Learning for Dense Prediction Tasks: A Survey
对像素级视觉任务的深度多任务学习的全面综述,详细介绍架构、优化方法与经验评估。
With the advent of deep learning, many dense prediction tasks, i.e. tasks that produce pixel-level predictions, have seen significant performance improvements. The typical approach is to learn these tasks in isolation, that is, a separate neural network is trained for each individual task. Yet, recent multi-task learning (MTL) techniques have shown promising results w.r.t. performance, computations and/or memory footprint, by jointly tackling multiple tasks through a learned shared representation. In this survey, we provide a well-rounded view on state-of-the-art deep learning approaches for MTL in computer vision, explicitly emphasizing on dense prediction tasks. Our contributions concern the following. First, we consider MTL from a network architecture point-of-view. We include an extensive overview and discuss the advantages/disadvantages of recent popular MTL models. Second, we examine various optimization methods to tackle the joint learning of multiple tasks. We summarize the qualitative elements of these works and explore their commonalities and differences. Finally, we provide an extensive experimental evaluation across a variety of dense prediction benchmarks to examine the pros and cons of the different methods, including both architectural and optimization based strategies.
研究动机与目标
- 为计算机视觉中的密集预测任务提供一个统一的最先进多任务学习(MTL)技术视角。
- 按任务交互发生的位置对架构进行分类(编码器为主 vs 解码器为主),并总结它们的优缺点。
- 回顾训练过程中平衡多任务的优化策略。
- 在多个基准上进行广泛的实验比较,以评估架构和优化方法。
- 公开分享可获取的代码以促进对所评审技术的采用。
提出的方法
- 基于交互位置的多任务学习架构分类法(编码器为主 vs 解码器为主)。
- 对编码器为主的方法的综述(例如 cross-stitch、NDDR-CNN、MTAN、branched MTL)。
- 对解码器为主的方法的综述(例如 PAD-Net、PAP-Net、MTI-Net、JTRL、MTI-Net)。
- 对任务平衡的优化策略的讨论(例如固定的不确定性、GradNorm、DWA、多目标优化)。
- 在广泛的密集预测基准上进行全面的实验评估以比较方法。
- 提供公开代码以便更容易采用(GitHub 链接)。
实验结果
研究问题
- RQ1在密集预测任务中,哪些多任务学习的架构选择最能充分利用共享表示?
- RQ2编码器为主和解码器为主的 MTL 架构在性能和效率上如何比较?
- RQ3哪些优化策略在训练过程中最有效地平衡多任务?
- RQ4在公平的对比条件下,不同的 MTL 方法在多样的密集预测基准上的表现如何?
主要发现
- 编码器为主和解码器为主的架构各具互补优势,解码器为主的方法通常通过多尺度蒸馏提供更丰富的跨任务交互。
- 软参数共享方法(例如 cross-stitch、NDDR-CNN、MTAN)解决了特征共享问题,但随着任务数量增加,存在可扩展性挑战。
- 执行多模态或多尺度蒸馏的解码器为主模型(如 PAD-Net、PAP-Net、MTI-Net)比仅编码器共享的方式捕捉到更丰富的任务关系。
- 分支式 MTL 网络在预算约束下实现任务分组与共享的自动化,以平衡性能和计算,展现端到端优化能力。
- 用于任务平衡的优化策略(如固定不确定性、GradNorm、DWA、多目标优化)对于避免单一任务支配并提升联合性能至关重要。
- 在大量基准上的广泛实验证明了架构与优化选择的相对优点与权衡,便于同台比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。