[论文解读] Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models
Mixout 正则化将 L2 惩罚自适应地导向预训练模型,在对小数据集进行微调大型预训练语言模型时,提高稳定性和平均开发集分数。
In natural language processing, it has been observed recently that generalization could be greatly improved by finetuning a large-scale language model pretrained on a large unlabeled corpus. Despite its recent success and wide adoption, finetuning a large pretrained language model on a downstream task is prone to degenerate performance when there are only a small number of training instances available. In this paper, we introduce a new regularization technique, to which we refer as "mixout", motivated by dropout. Mixout stochastically mixes the parameters of two models. We show that our mixout technique regularizes learning to minimize the deviation from one of the two models and that the strength of regularization adapts along the optimization trajectory. We empirically evaluate the proposed mixout and its variants on finetuning a pretrained language model on downstream tasks. More specifically, we demonstrate that the stability of finetuning and the average accuracy greatly increase when we use the proposed approach to regularize finetuning of BERT on downstream tasks in GLUE.
研究动机与目标
- 说明在小型下游数据集上稳定微调大型预训练语言模型的必要性。
- 将 Mixout 作为一种自适应正则化器引入,使学习朝着预训练参数向量偏置。
- 提供理论依据,表明 Mixout 作为针对预训练模型的 L2 正则化器。
- 在 MNIST-like 设置和对 GLUE 任务进行 BERT-LARGE 微调的经验评估,以评估稳定性和性能。
- 在多种消融实验中将 Mixout 与 dropout 及其他正则化方法进行比较,以理解其优势。
提出的方法
- 将 mixout 定义为通过伯努利掩码将当前参数与预训练目标进行随机混合。
- 证明 Mixout 对应于对预训练参数的自适应 L2 惩罚,其强度由掩码的概率 p 控制。
- 给出理论结果(定理 1 和推论 1.1),界定期望损失并将 Mixout 与 L2 正则化项联系起来。
- 通过在预训练层上将 dropout 替换为 mixout,同时保持最终输出层不正则化,将 Mixout 应用于预训练模型。
- 在合成数据(EMNIST/MNIST)和真实世界的 NLP 微调(GLUE 上的 BERT-LARGE)设置中进行经验验证,以证明稳定性和开发集分数的改进。
实验结果
研究问题
- RQ1在微调过程中,Mixout 是否提供对预训练参数向量的理论上有依据的自适应正则化?
- RQ2在下游任务中,Mixout 与标准 dropout 和权重衰减在微调稳定性和平均开发集表现方面有何比较?
- RQ3Can Mixout reduce degenerate finetuning outcomes and improve robustness across random restarts when fine-tuning large pretrained models on small datasets?
- RQ4在微调过程中,Mixout 对预训练层和非预训练输出层的影响是什么?
- RQ5Mixout 是否在不同任务类型和数据情境(合成的 MNIST-like 与 GLUE 任务)中都有效?
主要发现
- Mixout 作为面向预训练参数的自适应 L2 正则化器,强度随混合概率 p 的增加而增强。
- 在 MNIST-like 实验中,Mixout 使微调后的权重比 dropout 更接近预训练权重,验证了理论断言。
- 对小型 GLUE 任务子集进行的 BERT-LARGE 微调,使用 Mixout 可降低退化、偶然性结果并提高跨任务的平均开发集分数。
- 在各类消融实验中,与 dropout 相比,Mixout 提升了对超参数(p)的稳定性和鲁棒性,特别是在低数据情境下。
- 将 Mixout 与对预训练权重的权重衰减结合,在若干任务上带来平均和最佳开发集分数的进一步提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。