[论文解读] Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?
本文对 RoBERTa 进行了规模较大的研究,涵盖 110 对中间任务–目标任务对和 25 个探针任务,以了解中间任务训练在何时、为何有助于自然语言理解,结果显示高层次推理任务通常有益,且遗忘预训练可能限制迁移。
While pretrained models such as BERT have shown large gains across natural language understanding tasks, their performance can be improved by further training the model on a data-rich intermediate task, before fine-tuning it on a target task. However, it is still poorly understood when and why intermediate-task training is beneficial for a given target task. To investigate this, we perform a large-scale study on the pretrained RoBERTa model with 110 intermediate-target task combinations. We further evaluate all trained models with 25 probing tasks meant to reveal the specific skills that drive transfer. We observe that intermediate tasks requiring high-level inference and reasoning abilities tend to work best. We also observe that target task performance is strongly correlated with higher-level abilities such as coreference resolution. However, we fail to observe more granular correlations between probing and target task performance, highlighting the need for further work on broad-coverage probing benchmarks. We also observe evidence that the forgetting of knowledge learned during pretraining may limit our analysis, highlighting the need for further work on transfer learning methods in these settings.
研究动机与目标
- 研究哪些中间任务能最大程度惠及广泛的目标 NLU 任务。
- 识别在中间任务训练过程中学到、并可迁移到目标任务的语言能力。
- 考察探针任务的表现与目标任务改进之间的相关性,以解释迁移。
- 评估中间任务的数据集规模是否能解释迁移效果的差异。
- 探讨迁移学习过程中的潜在限制,如灾难性遗忘等。
提出的方法
- 逐个在 11 个中间任务上微调 RoBERTa。
- 分别在 10 个目标任务和 25 个探针任务上微调中间任务训练后的模型。
- 通过将目标任务的性能与未进行中间训练的基线进行比较来评估迁移。
- 使用 3 次随机重启,在任务和基线之间获得 1260 次观测。
- 对学习率和 dropout 进行超参数搜索,然后为每个任务固定最佳参数。
- 使用 RoBERTa-Large 及与前期工作一致的标准微调流程。
实验结果
研究问题
- RQ1哪些中间任务能在多样化的目标任务上广泛提升性能?
- RQ2哪些语言能力是中间任务所教授并通过探针任务揭示能帮助目标任务的?
- RQ3探针任务的表现如何与目标任务的改进相关,它们是否能够解释迁移的收益?
- RQ4中间任务的数据集规模或预训练的遗忘是否会限制迁移效应?
主要发现
- 需要高层次推理和常识推理的任务往往是良好的中间任务。
- MNLI 及 CosmosQA 类任务在许多目标上显示正迁移;SocialIQA 常导致负迁移。
- 低层次的输入保持能力与目标任务性能相关性较小,而与 MLM 类任务相关的高层次能力相关性更高。
- 探针相关性表明语义与指代相关的探针与目标性能相关,而许多 SentEval 探针则并非如此。
- 预训练的灾难性遗忘可能限制迁移;在中间训练中整合 MLM 目标可能有助于缓解遗忘。
- 中间任务训练下退化运行的可能性较低,但在某些情况下高度负向迁移可能增加退化情况。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。