QUICK REVIEW

[论文解读] How fine can fine-tuning be? Learning efficient language models

Evani Radiya-Dixit, Xin Wang|arXiv (Cornell University)|Apr 24, 2020

Topic Modeling参考文献 39被引用 26

一句话总结

本论文表明，通过将预训练权重稀疏化（即设定部分参数为零）而非更新它们，可以显著提高 BERT 等大型语言模型微调的效率。令人惊讶的是，仅需 1–40% 的权重保持非零即可实现优异性能，且这些稀疏配置具有任务特异性，从而在不损失性能的前提下实现低内存、低计算量的推理。

ABSTRACT

State-of-the-art performance on language understanding tasks is now achieved with increasingly large networks; the current record holder has billions of parameters. Given a language model pre-trained on massive unlabeled text corpora, only very light supervised fine-tuning is needed to learn a task: the number of fine-tuning steps is typically five orders of magnitude lower than the total parameter count. Does this mean that fine-tuning only introduces small differences from the pre-trained model in the parameter space? If so, can one avoid storing and computing an entire model for each task? In this work, we address these questions by using Bidirectional Encoder Representations from Transformers (BERT) as an example. As expected, we find that the fine-tuned models are close in parameter space to the pre-trained one, with the closeness varying from layer to layer. We show that it suffices to fine-tune only the most critical layers. Further, we find that there are surprisingly many good solutions in the set of sparsified versions of the pre-trained model. As a result, fine-tuning of huge language models can be achieved by simply setting a certain number of entries in certain layers of the pre-trained parameters to zero, saving both task-specific parameter storage and computational cost.

研究动机与目标

探究尽管模型规模巨大，微调后的语言模型参数在参数空间中是否仍与预训练版本保持接近。
探索仅存储和计算少量任务特定参数是否可行，从而降低内存和计算成本。
确定预训练权重的稀疏化是否可作为完整微调的有效替代方案，在保持性能的同时实现高效推理。
评估优秀的稀疏参数配置（超级掩码）是否仅存在于预训练模型中，还是在随机初始化的权重中也可找到。
评估不同任务所学习的超级掩码是否具有共享的零值模式，或是否主要具有任务特异性，从而为多任务学习系统的设计提供依据。

提出的方法

通过测量预训练与微调后 BERT 参数之间的 L1 距离和角度距离，量化其在参数空间中的接近程度。
通过测量微调过程中参数更新的幅度，识别 BERT 中最敏感的层，然后仅微调这些层。
通过将一部分预训练权重设为零，施加 L0 范数约束，以在微调模型中强制实现稀疏性。
通过仅优化每个权重的二值掩码（0 或 1）来训练特定任务的超级掩码，同时保持预训练权重固定。
使用 GLUE 基准测试在多种 NLP 任务上评估性能，包括 MRPC、RTE、MNLI 和 QQP。
将稀疏模型的性能与完整微调模型以及权重随机打乱后的模型进行比较，以隔离预训练的作用。

实验结果

研究问题

RQ1微调后的语言模型参数与预训练版本在参数空间中有多接近？
RQ2在保持任务性能的前提下，能否有效用预训练权重的稀疏化替代微调？
RQ3在预训练模型的 L0 邻域内是否存在大量表现良好的稀疏参数配置（超级掩码）？
RQ4超级掩码的有效性是否依赖于初始权重的预训练，还是在随机权重中也能找到？
RQ5为不同任务学习到的超级掩码是否具有共同的零值模式，还是主要具有任务特异性？

主要发现

尽管模型规模巨大，微调后的 BERT 模型在参数空间中仍与预训练版本高度接近，L1 距离和角度距离均保持较小。
对于 MRPC 和 RTE 等简单任务，仅需 1–2% 的预训练权重保持非零即可实现优异性能，F1 分别达到 91.3 和 75.8。
对于 MNLI 和 QQP 等复杂任务，最多可将 12–13% 的权重剪枝为零，同时保持具有竞争力的性能。
在权重随机打乱后的预训练模型上训练的稀疏模型性能显著更差（例如，MRPC 上 F1 从 91.3 降至 81.2），证明优秀的超级掩码仅存在于预训练参数中。
不同任务的超级掩码在零值模式上的重叠极小，表明每个任务都需要独立的、任务特异的稀疏配置。
在预训练模型的 L0 邻域内存在大量高性能的稀疏配置，使得仅通过掩码优化即可实现高效、低存储的微调。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。