QUICK REVIEW

[论文解读] AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning

Ximeng Sun, Rameswar Panda|arXiv (Cornell University)|Nov 27, 2019

Domain Adaptation and Few-Shot Learning参考文献 67被引用 121

一句话总结

AdaShare 学习任务特定的执行策略，以决定在多任务之间应共享还是专门化哪些网络层，在显著减少参数量和计算量的同时，获得具有竞争力的准确度。

ABSTRACT

Multi-task learning is an open and challenging problem in computer vision. The typical way of conducting multi-task learning with deep neural networks is either through handcrafted schemes that share all initial layers and branch out at an adhoc point, or through separate task-specific networks with an additional feature sharing/fusion mechanism. Unlike existing methods, we propose an adaptive sharing approach, called AdaShare, that decides what to share across which tasks to achieve the best recognition accuracy, while taking resource efficiency into account. Specifically, our main idea is to learn the sharing pattern through a task-specific policy that selectively chooses which layers to execute for a given task in the multi-task network. We efficiently optimize the task-specific policy jointly with the network weights, using standard back-propagation. Experiments on several challenging and diverse benchmark datasets with a variable number of tasks well demonstrate the efficacy of our approach over state-of-the-art methods. Project page: https://cs-people.bu.edu/sunxm/AdaShare/project.html.

研究动机与目标

说明需要高效的多任务学习（MTL），其规模随任务数量的增加而扩展。
开发一个可微分的方法来决定在任务之间应共享哪些层、应专门化哪些层。
在不使用强化学习的情况下，联合优化任务性能与资源效率。
提供一种训练策略和损失函数组，既鼓励共享又保持准确性。

提出的方法

为每个网络层建模一个任务特定的二进制策略，以决定对给定任务是否执行该层。
使用 Gumbel-Softmax 采样实现离散共享/跳过决策的可微学习。
通过反向传播，结合带有任务特定损失和正则化的策略对数，联合训练网络权重。
引入稀疏性和共享损失以鼓励紧凑、友好共享的结构。
应用类似课程的暖启动和对策略空间的渐进收紧以稳定优化。
通过直接在层对数上学习策略，而不是使用独立的策略网络，来维持较小的额外参数开销。

实验结果

研究问题

RQ1我们是否可以在单个多任务网络内学习每个任务的执行路径，以同时优化准确度和效率？
RQ2学习到的任务特定策略是否能够有效地共享低到中层特征，同时在需要时保留任务特定的块？
RQ3稀疏性和共享正则化如何影响多任务模型的紧凑性和性能？
RQ4在不同数据集上，AdaShare 相对于最先进的多任务学习方法的性能和参数效率如何？
RQ5该方法如何随着任务和领域数量的增加而扩展？

主要发现

AdaShare 在 NYU v2、CityScapes、Tiny-Taskonomy、DomainNet 以及 NLP 数据集上，通常在多个指标上达到最佳或接近最佳的性能。
该方法相比多数基线将参数量减少约50-80%，同时保持或超越准确性。
学得的策略经常优先在任务组之间共享中间层块（例如 ResNet 中的 conv3_x），以最大化正迁移并限制负迁移。
策略可视化显示任务相关性与直观的领域相似性一致，引导共享模式。
AdaShare 平均实现 7.67%-18.71% 的 FLOP 省省，并且在竞争或更好准确度的前提下，参数量最多可减少 80%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。