[论文解读] Trace Norm Regularised Deep Multi-Task Learning
该论文提出了一种数据驱动的深度多任务学习框架,通过张量迹范数正则化自动学习跨任务的参数共享,而无需预设的结构约束。通过在跨任务的堆叠层参数上应用迹范数正则化,该方法以一种系统且凸优化的方式促进共享表征,从而在Omniglot字符识别任务中实现了更好的泛化性能并减少了过拟合,且在LAF、Tucker和TT张量范数变体中均表现出一致的性能表现。
We propose a framework for training multiple neural networks simultaneously. The parameters from all models are regularised by the tensor trace norm, so that each neural network is encouraged to reuse others' parameters if possible -- this is the main motivation behind multi-task learning. In contrast to many deep multi-task learning models, we do not predefine a parameter sharing strategy by specifying which layers have tied parameters. Instead, our framework considers sharing for all shareable layers, and the sharing strategy is learned in a data-driven way.
研究动机与目标
- 为解决深度多任务学习中设计最优参数共享架构的挑战,其中手动选择层复杂且易出错。
- 实现无需预定义连接层的、自动化的、基于数据的多任务间参数共享模式发现。
- 利用张量迹范数正则化作为多层神经网络参数中低秩结构的凸代理。
- 为深度多任务学习提供一种灵活且可扩展的替代方案,以替代基于显式分解的方法。
- 在少样本学习基准上实证评估不同张量迹范数形式(LAF、Tucker、TT)在提升泛化性能方面的有效性。
提出的方法
- 将所有任务中相同层的参数堆叠为一个张量,形成一个多维数组(例如,对于具有T个任务的卷积层,为5×5×3×32×T)。
- 对这些堆叠的参数张量应用张量迹范数正则化,以鼓励低秩结构,从而在任务间促进参数共享。
- 提出了三种张量迹范数变体:最后轴展平(LAF)、基于Tucker的和基于张量-Train(TT)的,分别对应不同的张量展开与秩近似策略。
- 优化过程使用(次)梯度下降法,迹范数的次梯度通过SVD计算:∂||X||_* / ∂X = U V^T,其中X = UΣV^T。
- 该方法在TensorFlow中实现,并通过标准反向传播进行端到端训练,同时在共享层参数上添加迹范数正则化。
- 正则化强度由超参数γ控制,所有层和变体中统一设置为0.01。
实验结果
研究问题
- RQ1张量迹范数正则化是否能在无需预设结构约束的情况下,自动学习深度神经网络层间的有效参数共享模式?
- RQ2在深度多任务学习中,不同张量范数形式(LAF、Tucker、TT)在泛化性能和学习动态方面如何比较?
- RQ3与单任务学习相比,迹范数正则化是否能有效减少少样本多任务学习场景中的过拟合?
- RQ4底层参数共享程度是否高于顶层?这是否与先前的架构直觉一致?
- RQ5张量范数变体的选择(LAF vs. Tucker vs. TT)是否对性能敏感?还是所有变体均能带来相当的性能提升?
主要发现
- 与单任务学习(STL)相比,所提方法显著减少了过拟合,Omniglot数据集上的测试损失更低、测试准确率更高。
- 所有三种变体(LAF、Tucker、TT)的张量迹范数正则化均优于STL,在某些运行中测试准确率最高提升了约10%。
- 参数共享强度在首个卷积层最强,向最终层逐渐减弱,验证了早期特征更具可重用性的直观设计原则。
- 训练损失初始高于STL,但正则化项(范数)随时间减少,表明模型有效学习了参数共享。
- 张量范数变体的选择(LAF、Tucker、TT)对性能影响极小,所有变体在优化过程中均表现出一致的损失和范数减少。
- 该方法表现出鲁棒性和灵活性,因为优化某一范数变体也同时降低了其他变体的范数,表明存在互补的学习动态。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。