Skip to main content
QUICK REVIEW

[论文解读] Efficiently Identifying Task Groupings for Multi-Task Learning

Christopher Fifty, Ehsan Amid|arXiv (Cornell University)|Sep 10, 2021
Domain Adaptation and Few-Shot Learning参考文献 52被引用 29
一句话总结

TAG 在一次运行中训练所有任务,以通过梯度影响来衡量任务间的亲和性,然后构建最大化亲和性的任务组,从而实现更快且更好的多任务性能。

ABSTRACT

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naively training all tasks together in one model often degrades performance, and exhaustively searching through combinations of task groupings can be prohibitively expensive. As a result, efficiently identifying the tasks that would benefit from training together remains a challenging design question without a clear solution. In this paper, we suggest an approach to select which tasks should train together in multi-task learning models. Our method determines task groupings in a single run by training all tasks together and quantifying the effect to which one task's gradient would affect another task's loss. On the large-scale Taskonomy computer vision dataset, we find this method can decrease test loss by 10.0% compared to simply training all tasks together while operating 11.6 times faster than a state-of-the-art task grouping method.

研究动机与目标

  • 动机:在多任务学习中需要高效的任务分组,以避免负迁移和过高的搜索成本。
  • 提出一种单次运行的方法,通过基于梯度的前瞻损失来量化任务间的亲和性。
  • 开发一个网络选择算法,在推理约束下形成最大化每个任务亲和性的多任务组。
  • 在大规模视觉数据集(CelebA、Taskonomy)上展示可扩展性和效率。
  • 给出理论洞见,表明在温和的凸性假设下,基于亲和性的分组为何能优于其他方法。

提出的方法

  • 将所有任务共同训练以获得共享参数更新。
  • 将任务间亲和性 Z-i->j 定义为当任务 i 更新共享参数时任务 j 的相对进展(前瞻损失比率)。
  • 在训练过程中对每一步的亲和性取平均,以获得训练层面的分数 hat{Z}_{i→j}。
  • 通过最大化汇聚到每个被服务任务的亲和性之和,将任务分组为 k 个多任务网络(k ≤ 内存预算 b)。
  • 给出一个理论分析,表明在某些条件下,若满足 alpha-强凸性和 beta-强光滑性,在高亲和任务的分组下,亲和性越高,主任务的损失越低。
  • 将 TAG 与基线 MTL、STL、随机分组、基于余弦相似度的分组以及 HOA 进行比较,且在有无额外训练增强(如 PCGrad)时均作对比。

实验结果

研究问题

  • RQ1任务间在单次训练中测得的亲和性是否与识别有益的任务分组一致?
  • RQ2逐步亲和性测量是否比逐纪元或聚合测量更有效用于分组决策?
  • RQ3在大规模视觉基准上,TAG 相对于同时训练所有任务、单任务模型以及现有分组方法的表现如何?
  • RQ4在不同的推理时内存/延迟预算下,识别的分组是否仍然有效?
  • RQ5是否可以将亲和性-based 方法与训练时增强相结合以进一步提升性能?

主要发现

  • 与在 Taskonomy 上将所有任务一起训练相比,TAG 将测试损失降低最多 10.0%。
  • 在基准测试中,TAG 的速度约为领先的任务分组方法 HOA 的 11.6x。
  • 在 CelebA 上,TAG 的表现优于 MTL、UW、GN、RG,2–4 分组均显示出持续的提升,并且可通过 PCGrad 进一步提升。
  • 在 Taskonomy 上,TAG 对 MTL 提升 10.0%、GN 提升 7.7%、STL 提升 1.5%、RG 提升 9.5%。
  • TAG 在计算效率方面显著优于 HOA(如报道的实验中快 22x)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。