Skip to main content
QUICK REVIEW

[论文解读] What Matters In The Structured Pruning of Generative Language Models?

Michael Santacroce, Zixin Wen|arXiv (Cornell University)|Feb 7, 2023
Topic Modeling被引用 7
一句话总结

该论文系统性评估解码器独立的语言模型在自然语言生成任务上的结构化裁剪方法,并提出 Globally Unique Movement (GUM)——一种在神经元敏感度与唯一性之间取得平衡、优于现有方法的裁剪方案,适用于多种设置。

ABSTRACT

Auto-regressive large language models such as GPT-3 require enormous computational resources to use. Traditionally, structured pruning methods are employed to reduce resource usage. However, their application to and efficacy for generative language models is heavily under-explored. In this paper we conduct an comprehensive evaluation of common structured pruning methods, including magnitude, random, and movement pruning on the feed-forward layers in GPT-type models. Unexpectedly, random pruning results in performance that is comparable to the best established methods, across multiple natural language generation tasks. To understand these results, we provide a framework for measuring neuron-level redundancy of models pruned by different methods, and discover that established structured pruning methods do not take into account the distinctiveness of neurons, leaving behind excess redundancies. In view of this, we introduce Globally Unique Movement (GUM) to improve the uniqueness of neurons in pruned models. We then discuss the effects of our techniques on different redundancy metrics to explain the improved performance.

研究动机与目标

  • 评估传统结构化裁剪方法(幅度、移动、随机)在解码器独立的生成式语言模型上的表现。
  • 理解为何某些裁剪方法表现不佳,并识别对裁剪质量至关重要的神经元冗余因素。
  • 提出一个经验框架来衡量神经元冗余性(敏感性与唯一性),并用其指导裁剪。
  • 引入 GUM(Globally Unique Movement)以在保持敏感性的同时提升神经元唯一性,并在多种 NLP 生成任务上评估。

提出的方法

  • 在解码器独立的大语言模型的 MLP 块上对常见的结构化裁剪方法(幅度、随机、移动)进行微调裁剪评估。
  • 使用带 Top_v 的基于掩码的裁剪及其变体;比较硬性与软性移动以及幅度裁剪。
  • 结合知识蒸馏以评估其对裁剪差距的影响。
  • 开发冗余度量:敏感性(移除一个神经元的影响)和唯一性(一个神经元的输出能否被其他神经元重建)。
  • 提出 Globally Unique Movement (GUM) 通过结合基于余弦相似性的唯一性项与基于移动的裁剪来偏向具有独特、显著性的神经元。
  • 在训练过程中提供持续的余弦相似性更新以估计神经元之间的相似度并据此进行裁剪。

实验结果

研究问题

  • RQ1在自然语言生成任务上,标准结构化裁剪方法相较于天真的随机裁剪,在解码器独立的语言模型上表现如何?
  • RQ2哪些冗余属性(敏感性 vs. 唯一性)最能与生成模型的裁剪性能相关?
  • RQ3一种显式促进神经元唯一性的裁剪策略(GUM)是否在不同数据/任务和模型规模下优于现有方法?
  • RQ4知识蒸馏如何影响不同裁剪方法之间的性能差距?

主要发现

  • 随机裁剪在多项自然语言生成任务上往往与既有方法相当甚至接近,尤其在蒸馏情况下。
  • 蒸馏倾向于缩小裁剪方法之间的差距,降低更复杂裁剪的优势。
  • 基于敏感性与唯一性的框架可以解释方法表现,并与裁剪结果相关。
  • GUM通常通过在保持合理敏感性的同时实现高唯一性来超越传统方法,其优势在某些模型规模和任务中更为显著。
  • 硬性移动在无蒸馏时能实现高敏感性与较好表现,但 GUM 仍具竞争力,且在蒸馏时受益。
  • 在不同任务中,增加裁剪会降低敏感性并提升唯一性,最佳结果来自于两者的平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。