[论文解读] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout
GradDrop 引入了一种梯度掩码层,该层基于一致性分数选择梯度符号,在多个损失之间促进联合极小值,并提升多任务与迁移学习性能。
The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede optimal training by pulling the model in conflicting directions. We present Gradient Sign Dropout (GradDrop), a probabilistic masking procedure which samples gradients at an activation layer based on their level of consistency. GradDrop is implemented as a simple deep layer that can be used in any deep net and synergizes with other gradient balancing approaches. We show that GradDrop outperforms the state-of-the-art multiloss methods within traditional multitask and transfer learning settings, and we discuss how GradDrop reveals links between optimal multiloss training and gradient stochasticity.
研究动机与目标
- 直观地将多个梯度信号简单求和可能由于方向冲突而妨碍多任务训练。
- 提出 GradDrop 通过有选择地屏蔽梯度符号来促进联合极小值。
- 展示 GradDrop 在多任务学习、迁移学习以及复杂单任务模型中的有效性。
- 探讨理论性质及与现有梯度平衡方法的协同作用。
提出的方法
- 定义梯度正符号纯度 P = 1/2(1 + ∑_i ∇L_i / ∑_i |∇L_i|)。
- 使用单调函数 f 和随机均匀变量 U,为每个梯度计算掩模 M_i,决定保留哪个符号,产生新的梯度为 ∑_i M_i ∇L_i。
- 将 GradDrop 作为在预测头前的模块化层应用,必要时可选泄漏参数 ℓ_i 以偏置位置。
- 将 GradDrop 扩展到按批分离的梯度,通过对整个批次求和梯度并使用虚拟层来计算 P 和 M_i。
- 提供 GradDrop 层反向传播的完整算法,包括归一化和可选梯度泄漏。
- 证明 GradDrop 确保稳定点仅在联合极小值处,并且梯度幅度对每个损失仍然敏感。
实验结果
研究问题
- RQ1GradDrop 是否能够在多任务设定中可靠地将优化方向引导至联合极小值?
- RQ2在不同任务与架构中,GradDrop 与现有多任务梯度方法(MGDA、PCGrad、GradNorm)相比有何差异?
- RQ3GradDrop 是否与迁移学习及其他基于梯度的正则化方法产生有益的相互作用?
- RQ4GradDrop 的更新在理论上的保证和统计性质是什么?
主要发现
| Method | Error Rate (%) ↓ | Max F1 Score ↑ | Speed Compared to Baseline ↑ |
|---|---|---|---|
| Baseline | 8.71 | 29.35 | 1.00 |
| Gradient Clipping [50] | 8.70 | 29.34 | 1.00 |
| Gradient Penalty [10] | 8.63 | 29.43 | 0.35 |
| MGDA [37] | 10.82 | 26.00 | 0.25 |
| PCGrad [47] | 8.72 | 29.25 | 0.20 |
| GradNorm [3] | 8.68 | 29.32 | 0.41 |
| Random GradDrop | 8.60 | 29.42 | 0.45 |
| GradDrop (ours) | 8.52 | 29.57 | 0.45 |
- GradDrop 在 CelebA、CIFAR-100 迁移、以及 Waymo 3D 检测等关键指标上超越了最先进的多任务方法。
- 在 CelebA 中,GradDrop 实现了最低错误率(8.52%)和最高最大 F1(29.57),并且速度与基线相当。
- GradDrop 在迁移学习(CIFAR-100)和三维检测指标上带来显著提升,并与 GradNorm 具有协同效应。
- GradDrop 保持预期的总损失变化并提高对单个任务的梯度敏感性,促进联合极小值。
- GradDrop 在推理阶段计算开销极小,推理时间增加很少,且总体训练时间通常低于某些替代方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。