[论文解读] Reweighted Proximal Pruning for Large-Scale Language Representation
论文提出 Reweighted Proximal Pruning (RPP),一种在 BERT 上实现高达 59.3% 权重稀疏的剪枝方法,对预训练影响极小,并在许多下游任务中优于基线迭代剪枝方法(NIP),尤其在高剪枝比时。
Recently, pre-trained language representation flourishes as the mainstay of the natural language understanding community, e.g., BERT. These pre-trained language representations can create state-of-the-art results on a wide range of downstream tasks. Along with continuous significant performance improvement, the size and complexity of these pre-trained neural models continue to increase rapidly. Is it possible to compress these large-scale language representation models? How will the pruned language representation affect the downstream multi-task transfer learning objectives? In this paper, we propose Reweighted Proximal Pruning (RPP), a new pruning method specifically designed for a large-scale language representation model. Through experiments on SQuAD and the GLUE benchmark suite, we show that proximal pruned BERT keeps high accuracy for both the pre-training task and the downstream multiple fine-tuning tasks at high prune ratio. RPP provides a new perspective to help us analyze what large-scale language representation might learn. Additionally, RPP makes it possible to deploy a large state-of-the-art language representation model such as BERT on a series of distinct devices (e.g., online servers, mobile phones, and edge devices).
研究动机与目标
- 在不牺牲迁移学习性能的前提下,动机化并实现对大规模预训练语言表示(如 BERT)的压缩。
- 开发一种剪枝方法,在从已剪枝的预训练模型出发时,能够保持下游多任务迁移学习目标。
- 研究在剪枝条件下,变换器为基础的语言模型中的稀疏模式及其可解释性。
- 提供关于剪枝比和在预训练与微调任务之间的性能权衡的经验性证据。
提出的方法
- 引入 Reweighted L1 最小化,结合近端算子以将稀疏性模式搜索与基于梯度的更新解耦。
- 迭代求解带有稀疏性惩罚项的目标 f0(w) + gamma sum_i alpha_i |w_i|,其中重加权因子 alpha_i 更新为 alpha_i = 1/(|w_i| + epsilon)。
- 使用闭式近端算子在给定重加权的 L1 项的情况下更新权重 (w),实现高效的稀疏模式发现,而无需对稀疏惩罚进行反向传播。
- 采用 AdamW 作为优化器,以符合解耦的权重正则化理念并提升泛化能力。
- 将 RPP 与 New Iterative Pruning (NIP) 基线进行比较,并报告 MLM/NSP 预训练和多项 GLUE/SQuAD 任务上的性能。
实验结果
研究问题
- RQ1在不损害下游迁移学习性能的前提下,像 BERT 这样的大型预训练语言表示是否可以在权重层级上被有效剪枝?
- RQ2预训练模型的剪枝比在一系列下游任务上的性能有何影响?
- RQ3在重加权近端剪枝下,变换器块中出现了哪些稀疏模式,它们在语言学/注意力层面如何解释?
主要发现
- RPP 在 BERT 上实现了 59.3% 的权重稀疏,在预训练或微调性能在所报道的设置中未见下降。
- NSP 精度在高剪枝下保持鲁棒(在 90% 剪枝时高于 95%,在 NIP 时约 90%)。
- 在 SQuAD 1.1 上,RPP 在 41.2% 剪枝时保持 F1 为 88.5(0 下降),在 80% 剪枝时保持 84.7 F1(下降 3.8),在可比剪枝水平的 NIP 基线相比表现更好(NIP 在类似剪枝水平下降更多)。
- 对于 BERT-LARGE,RPP 在 59.3% 剪枝下在 SQuAD1.1 和 GLUE 上取得有竞争力的结果,在某些任务中 CoLA 比 NIP 基线提升了 +1.3,并在更高的剪枝水平(例如在报道行的 88.4% 时)维持强劲表现。
- RPP 发现了变换器块中 Q 和 K 矩阵的结构化稀疏模式(Q 的列向稀疏和 K 的行向稀疏),并通过 t-SNE 可视化显示嵌入保持了语义结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。