[论文解读] Recon: Reducing Conflicting Gradients from the Root for Multi-Task Learning
Recon 在共享网络层中识别分层梯度冲突,将冲突最严重的层转换为任务特异的层,并从头开始重新训练,以显著降低冲突并提升多任务性能。
A fundamental challenge for multi-task learning is that different tasks may conflict with each other when they are solved jointly, and a cause of this phenomenon is conflicting gradients during optimization. Recent works attempt to mitigate the influence of conflicting gradients by directly altering the gradients based on some criteria. However, our empirical study shows that ``gradient surgery'' cannot effectively reduce the occurrence of conflicting gradients. In this paper, we take a different approach to reduce conflicting gradients from the root. In essence, we investigate the task gradients w.r.t. each shared network layer, select the layers with high conflict scores, and turn them to task-specific layers. Our experiments show that such a simple approach can greatly reduce the occurrence of conflicting gradients in the remaining shared layers and achieve better performance, with only a slight increase in model parameters in many cases. Our approach can be easily applied to improve various state-of-the-art methods including gradient manipulation methods and branched architecture search methods. Given a network architecture (e.g., ResNet18), it only needs to search for the conflict layers once, and the network can be modified to be used with different methods on the same or even different datasets to gain performance improvement. The source code is available at https://github.com/moukamisama/Recon.
研究动机与目标
- 动机并解决多任务学习(MTL)中因梯度冲突导致的负迁移。
- 引入一个分层冲突度量,识别共享带来问题最多的区域。
- 提出一个简单、可扩展的方法,将最具冲突性的共享层转换为任务特异层并重新训练。
- 证明消除根层冲突在不同数据集和架构上带来改进。
提出的方法
- 在初始训练阶段,计算相对于每个共享层的任务梯度。
- 基于在各迭代中任务对梯度夹角的数量(cos(phi) < S)定义分层冲突分数 s(k)。
- 识别前K个冲突层并将其转换为任务特异参数,重新从头训练网络。
- 给出理论分析,表明在修改后的参数集上,Recon 的一步更新能减小损失。
- 在多数据集和主干网络上对 Recon 进行实验验证,并展示其与梯度操作和分支架构方法的兼容性。
实验结果
研究问题
- RQ1是否可以通过从根本上减少共享结构来缓解多任务学习中的梯度冲突,而不仅仅是通过梯度操作?
- RQ2哪些共享层对梯度冲突贡献最大, 将它们设为任务特异是否能在不大量增加参数的情况下提升性能?
- RQ3Recon 是否在不同数据集和架构上稳定地提升最先进的梯度操作和架构搜索方法?
- RQ4一次性的冲突层搜索是否足以在不同任务或数据集上带来收益?
主要发现
- Recon 显著降低剩余共享层中的冲突梯度,通常只有不到 13% 的共享参数被转换为任务特异。
- Recon 相较联合训练和大多数梯度操作基线,在若干数据集(Multi-Fashion+MNIST、CelebA、CityScapes、PASCAL-Context、NYUv2)上取得显著性能提升。
- Recon 提升或达到最优基线,同时保持模型规模适中,并与现有方法(MGDA、PCGrad、GradDrop、CAGrad、RotoGrad,以及像 BMTAS 这样的分支架构搜索)兼容。
- 对于给定架构,Recon 识别出的冲突层在训练阶段、方法和数据集之间基本一致,使得一次性冲突层搜索具有更广的适用性。
- 消融研究表明随机选择层或参数的做法表现不如 Recon,突出针对最严重的分层冲突的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。