[论文解读] Regularizing Deep Multi-Task Networks using Orthogonal Gradients
本文提出CosReg,一种新颖的梯度正则化方法,通过在深度多任务神经网络中强制不同任务梯度正交,以减少干扰并提升性能。通过最小化不同任务梯度之间的余弦相似度,该方法促使解码器从不同的特征表示中学习,从而在NYUv2和SUN RGB-D数据集的语义分割与深度估计任务中取得具有竞争力的结果。
Deep neural networks are a promising approach towards multi-task learning because of their capability to leverage knowledge across domains and learn general purpose representations. Nevertheless, they can fail to live up to these promises as tasks often compete for a model's limited resources, potentially leading to lower overall performance. In this work we tackle the issue of interfering tasks through a comprehensive analysis of their training, derived from looking at the interaction between gradients within their shared parameters. Our empirical results show that well-performing models have low variance in the angles between task gradients and that popular regularization methods implicitly reduce this measure. Based on this observation, we propose a novel gradient regularization term that minimizes task interference by enforcing near orthogonal gradients. Updating the shared parameters using this property encourages task specific decoders to optimize different parts of the feature extractor, thus reducing competition. We evaluate our method with classification and regression tasks on the multiDigitMNIST, NYUv2 and SUN RGB-D datasets where we obtain competitive results.
研究动机与目标
- 解决在共享参数优化过程中,由于梯度竞争导致的深度多任务网络中的任务干扰问题。
- 探究梯度方向对齐(特别是正交性)是否与多任务性能提升相关。
- 开发一种新型正则化技术,显式强制梯度正交性,以减少任务间的竞争。
- 在不同任务相似度与规模下,于多样化的多任务视觉基准(包括NYUv2和SUN RGB-D)上评估该方法。
- 探索Dropout和BatchNorm等常见正则化技术是否隐式诱导梯度正交性。
提出的方法
- 提出一种新的正则化项,通过最小化不同任务梯度之间余弦相似度的平方,来实现正则化。
- 引入一个损失分量,对非正交的梯度方向施加惩罚,以鼓励任务特定的解码器利用共享特征提取器的不同部分。
- 通过超参数α控制整体多任务损失中梯度正交性惩罚的强度。
- 在NYUv2和SUN RGB-D上的实验中,采用Adam优化器配合学习率衰减和数据增强(如水平翻转)。
- 采用标准的硬参数共享架构,包含一个共享编码器和针对语义分割与深度估计任务的特定解码器。
- 在整个训练过程中测量梯度角度方差和余弦分布,以分析正则化对梯度交互的影响。
实验结果
研究问题
- RQ1任务梯度之间角度的高方差是否与多任务性能较差相关?
- RQ2显式正则化梯度正交性是否能提升多任务深度网络的泛化能力并减少任务干扰?
- RQ3像Dropout和BatchNorm这样的常见正则化技术是否隐式促进梯度正交性?
- RQ4在高度相关的任务(如粗粒度与细粒度语义分割)上,梯度正交性表现如何?
- RQ5梯度方向正则化能否优于基于幅度的损失加权方法(如GradNorm和Kendall等人,2018年提出的方法)?
主要发现
- 未正则化的多任务模型在不同任务梯度之间的余弦相似度表现出高方差,表明频繁存在干扰。
- 表现良好的模型始终显示出梯度余弦相似度呈零均值且方差低的分布。
- Dropout和BatchNorm隐式降低了梯度余弦相似度的方差,表明它们在训练过程中促进了正交性。
- 所提出的CosReg方法在NYUv2和SUN RGB-D上实现了最先进性能,优于等权重基线模型以及GradNorm和Kendall等人(2018)的方法。
- 在SUN RGB-D数据集中,CosReg在粗粒度分割任务上达到1-mIoU为0.644,在细粒度分割任务上达到0.714,优于所有基线模型。
- 即使在高度相关的任务(如粗粒度与细粒度分割)下,CosReg仍能有效强制实现梯度正交性并提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。