QUICK REVIEW

[论文解读] Adaptive Scheduling for Multi-Task Learning

Sébastien Jean, Orhan Fırat|arXiv (Cornell University)|Sep 13, 2019

Distributed and Parallel Computing Systems参考文献 19被引用 31

一句话总结

本文提出一种用于多语言神经机器翻译中多任务学习的自适应调度方法，利用验证集性能动态调整任务采样或梯度缩放。该方法在不降低高资源翻译性能（如En-Fr）的前提下，提升了低资源翻译（如En-De）的表现，通过基于验证指标的隐式与显式自适应策略，优于固定调度和基线模型。

ABSTRACT

To train neural machine translation models simultaneously on multiple tasks (languages), it is common to sample each task uniformly or in proportion to dataset sizes. As these methods offer little control over performance trade-offs, we explore different task scheduling approaches. We first consider existing non-adaptive techniques, then move on to adaptive schedules that over-sample tasks with poorer results compared to their respective baseline. As explicit schedules can be inefficient, especially if one task is highly over-sampled, we also consider implicit schedules, learning to scale learning rates or gradients of individual tasks instead. These techniques allow training multilingual models that perform better for low-resource language pairs (tasks with small amount of data), while minimizing negative effects on high-resource tasks.

研究动机与目标

解决多任务学习中的性能不平衡问题，特别是在多语言神经机器翻译中低资源任务表现不佳的问题。
减少对任务采样调度手动超参数调优的依赖。
通过基于验证性能动态调整任务重要性，缓解多任务模型中的灾难性遗忘。
探索显式（采样概率调整）与隐式（梯度/学习率缩放）调度策略。

提出的方法

自适应调度使用任务的相对验证BLEU分数（s_i / b_i）计算未归一化的权重 w_i = 1 / (min(1, s_i / b_i)^α + ε)，并将其归一化为采样概率。
对于隐式调度，权重计算为 w_i = 1 + sign(average_S - S_i) * min(γ, (max_j S_j)^α * |S_i - average_S|^β)，确保最小权重γ以防止遗忘。
该方法适用于显式采样与隐式梯度/学习率缩放，且在自适应优化器（如Adam）下保持一致性。
使用验证分数作为主要适应信号，避免依赖训练损失，因为后者可能与测试性能相关性较差。
该方法设计为可扩展至大量任务，此时手动超参数调优变得不可行。
超参数α、β和γ分别控制适应的激进程度和最小任务权重。

实验结果

研究问题

RQ1验证性能能否有效用于指导多任务学习中的动态任务调度？
RQ2显式与隐式自适应调度策略在平衡高资源与低资源任务表现方面有何差异？
RQ3自适应调度能否在不降低高资源翻译性能的前提下提升低资源翻译性能？
RQ4自适应调度在Adam等常见优化器下的稳定性和收敛特性如何？
RQ5自适应调度在具有大量任务的模型中是否具备可扩展性？

主要发现

显式自适应调度将En-De的开发集BLEU分数从基线的23.58提升至24.67，测试集提升至26.35，优于固定50%和75%的En-Fr采样调度。
隐式基于验证的调度在En-Fr开发集达到34.67 BLEU，测试集达到40.89，与单任务En-Fr基线性能相当。
显式自适应调度在En-De测试集取得最高BLEU分数（26.35），表明对低资源翻译有显著提升。
隐式梯度缩放（GradNorm）在En-De（24.69开发集）表现良好，但在En-Fr（34.33开发集）表现欠佳，表明其在平衡高资源任务方面存在局限。
所提方法缩小了高资源与低资源任务之间的性能差距，且对高资源对的性能影响极小。
自适应调度在可扩展性方面展现出潜力，适用于任务数量庞大的场景，此时手动超参数搜索变得不切实际。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。