[论文解读] Reasonable Effectiveness of Random Weighting: A Litmus Test for Multi-Task Learning
引入随机权重(RW)方法用于多任务学习,表明随机抽样的损失/梯度权重可以收敛并在与最先进基线的比较中实现具有竞争力的泛化。
Multi-Task Learning (MTL) has achieved success in various fields. However, how to balance different tasks to achieve good performance is a key problem. To achieve the task balancing, there are many works to carefully design dynamical loss/gradient weighting strategies but the basic random experiments are ignored to examine their effectiveness. In this paper, we propose the Random Weighting (RW) methods, including Random Loss Weighting (RLW) and Random Gradient Weighting (RGW), where an MTL model is trained with random loss/gradient weights sampled from a distribution. To show the effectiveness and necessity of RW methods, theoretically we analyze the convergence of RW and reveal that RW has a higher probability to escape local minima, resulting in better generalization ability. Empirically, we extensively evaluate the proposed RW methods to compare with twelve state-of-the-art methods on five image datasets and two multilingual problems from the XTREME benchmark to show RW methods can achieve comparable performance with state-of-the-art baselines. Therefore, we think that the RW methods are important baselines for MTL and should attract more attentions.
研究动机与目标
- 激发为测试多任务学习中的任务平衡需要简单的基线,超越等权重(EW)。
- 提出随机权重(RW)方法——随机损失加权(RLW)和随机梯度加权(RGW)——作为损失和平衡梯度的随机基线。
- 提供RW方法的收敛性和泛化保证的理论分析。
- 在CV和XTREME多语言基准上将RW与十二种SOTA方法进行实证比较,以评估其有效性和鲁棒性。
提出的方法
- 将RW定义为从分布中采样任务权重并归一化以形成一个单纯形,然后使用加权聚合损失或梯度来更新参数。
- 提出RLW和RGW算法,其对来自标准正态分布的采样权重进行基于softmax的归一化。
- 证明RLW是EW的随机变体,并在标准假设下推导收敛性保证。
- 表明引入的随机性有助于摆脱尖锐局部极小值,从而提高泛化。
- 在五个CV数据集和两个XTREME多语言任务上,实证比较RW与损失和梯度平衡基线。
- 研究RW与其他平衡方法及架构变体的组合。
实验结果
研究问题
- RQ1在损失与梯度平衡中的随机权重是否会收敛并相对于固定等权重(EW)提供有竞争力的性能?
- RQ2在标准优化假设下,RLW/RGW相对于EW的收敛性和泛化特性是什么?
- RQ3RW方法在多样化的MTL设置(CV和多语言基准)及不同架构上的表现如何?
- RQ4RW能否作为评估更复杂任务平衡策略的鲁棒性试金石基线?
主要发现
- RW方法(RLW和RGW)在所评估的任务上持续优于EW。
- 在以损失平衡为基线的比较中,RLW在NYUv2上实现了对EW的最高提升。
- RGW和RLW在各基准上与最先进的梯度/损失平衡方法相比具有竞争力的表现。
- 理论结果显示RLW是EW的随机变体,具有收敛性保证,且由于能够逃离尖锐局部极小值而具有更好的泛化潜力。
- RW方法对不同的权重分布具有鲁棒性,并且可以高效地与各种MTL架构集成。
- 当与某些梯度平衡方法结合时,RW方法带来显著提升,并且在多语言任务中可能超越某些基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。