[论文解读] The Lottery Ticket Hypothesis for Pre-trained BERT Networks
该论文表明,在预训练的 BERT 中存在稀疏、可训练的子网络,在非平凡稀疏度(40–90%)下,一些子网络在预训练初始化时就能训练至下游任务的全精度,且来自 MLM 的通用子网络可跨任务迁移。
In natural language processing (NLP), enormous pre-trained models like BERT have become the standard starting point for training on a range of downstream tasks, and similar trends are emerging in other areas of deep learning. In parallel, work on the lottery ticket hypothesis has shown that models for NLP and computer vision contain smaller matching subnetworks capable of training in isolation to full accuracy and transferring to other tasks. In this work, we combine these observations to assess whether such trainable, transferrable subnetworks exist in pre-trained BERT models. For a range of downstream tasks, we indeed find matching subnetworks at 40% to 90% sparsity. We find these subnetworks at (pre-trained) initialization, a deviation from prior NLP research where they emerge only after some amount of training. Subnetworks found on the masked language modeling task (the same task used to pre-train the model) transfer universally; those found on other tasks transfer in a limited fashion if at all. As large-scale pre-training becomes an increasingly central paradigm in deep learning, our results demonstrate that the main lottery ticket observations remain relevant in this context. Codes available at https://github.com/VITA-Group/BERT-Tickets.
研究动机与目标
- 评估在预训练 BERT 模型中是否存在用于下游 NLP 任务的匹配子网络(彩票票据假设)。
- 确定这些子网络是否可以在预训练初始化阶段和/或在早期训练阶段被发现。
- 评估发现的子网络在不同下游任务之间的可迁移性。
- 确认是否存在能够在多任务中迁移且不损失准确性的通用子网络。
提出的方法
- 使用迭代幅度裁剪(IMP)从在 theta_0 初始化的预训练 BERT 基础模型中识别稀疏子网络。
- 通过全局幅度裁剪达到目标稀疏度,并回卷到指定的训练步骤 i(包括 i=0)。
- 通过在下游任务上训练子网络并将其性能与完整未裁剪的 BERT 做比较来评估子网络。
- 将 IMP 子网络与随机裁剪和随机重新初始化的子网络进行比较,以确立裁剪掩码和初始化的重要性。
- 通过裁剪 MLM 派生的子网络并在多任务上进行评估,测试跨任务的转移性和普遍性。
实验结果
研究问题
- RQ1在以预训练 theta_0 初始化时,BERT 是否存在 40%–90% 稀疏度的匹配子网络?
- RQ2这些子网络是否能迁移到其他下游任务,是否存在广泛可迁移的通用子网络?
- RQ3回卷到中间训练阶段是否提升子网络性能或转移能力?
- RQ4当子网络来自 MLM 预训练与来自其他下游任务时,转移性能有何差异?
主要发现
- 在 40%–90% 稀疏度下,从预训练初始化裁剪时,在 GLUE 任务和 SQuAD 中存在匹配子网络。
- 在 MLM 转移中发现的子网络对其他任务具有普遍转移性;来自其他任务的子网络只有有限程度的转移。
- 回卷到中间训练步骤并未显著提升性能,甚至对某些任务有害。
- MLM 来源的子网络在研究的多任务中可实现普遍转移,达到 70% 稀疏度。
- MLM 的子网络在转移性能上达到最佳,在许多情况下在目标任务上接近同任务性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。