Skip to main content
QUICK REVIEW

[논문 리뷰] What Matters In The Structured Pruning of Generative Language Models?

Michael Santacroce, Zixin Wen|arXiv (Cornell University)|2023. 02. 07.
Topic Modeling인용 수 7
한 줄 요약

논문은 NLG 작업에서 디코더 전용 LLM에 대한 구조화된 프루닝 방법을 체계적으로 평가하고, 뉴런 민감도와 고유성을 균형 있게 조절하여 기존 방법보다 우수한 성능을 발휘하는 프루닝 접근 방식인 Globally Unique Movement (GUM)을 소개합니다.

ABSTRACT

Auto-regressive large language models such as GPT-3 require enormous computational resources to use. Traditionally, structured pruning methods are employed to reduce resource usage. However, their application to and efficacy for generative language models is heavily under-explored. In this paper we conduct an comprehensive evaluation of common structured pruning methods, including magnitude, random, and movement pruning on the feed-forward layers in GPT-type models. Unexpectedly, random pruning results in performance that is comparable to the best established methods, across multiple natural language generation tasks. To understand these results, we provide a framework for measuring neuron-level redundancy of models pruned by different methods, and discover that established structured pruning methods do not take into account the distinctiveness of neurons, leaving behind excess redundancies. In view of this, we introduce Globally Unique Movement (GUM) to improve the uniqueness of neurons in pruned models. We then discuss the effects of our techniques on different redundancy metrics to explain the improved performance.

연구 동기 및 목표

  • 전통적인 구조화 프루닝 방법들 (magnitude, movement, random)이 디코더 전용 생성형 언어 모델에서 어떤 성능을 보이는지 평가한다.
  • 일부 프루닝 방법이 기대에 못 미치는 이유를 이해하고 프루닝 품질에 중요한 뉴런 중복성 요인을 식별한다.
  • 뉴런 중복성(sensitivity and uniqueness)을 측정하는 경험적 프레임워크를 제안하고 이를 프루닝 안내에 활용한다.
  • 민감도를 유지하면서 뉴런 고유성을 개선하기 위해 Globally Unique Movement (GUM)을 도입하고 이를 NLP 생성 작업 전반에 걸쳐 평가한다.

제안 방법

  • 일반적인 구조화 프루닝 방법들 (magnitude, random, movement)을 디코더-전용 LLM의 MLP 블록에서 미세 프루닝 중에 평가한다.
  • Top_v 및 변형을 사용하는 마스크 기반 프루닝을 활용; 하드 대 소프트 이동 및 마그니튜드 프루닝을 비교한다.
  • 지식 증류를 도입하여 프루닝 간격에 대한 효과를 평가한다.
  • 민감도(뉴런 제거의 영향)와 고유성(다른 뉴런으로부터의 재구성이 가능한 정도)이라는 중복성 지표를 개발한다.
  • 코사인 유사도 기반의 고유성 항을 이동 기반 프루닝과 결합하여 고유하고 두드러진 뉴런을 선호하는 Globally Unique Movement (GUM)을 제안한다.
  • 훈련 중 상호 뉴런 유사도를 추정하기 위한 실행 중 코사인 유사도 업데이트를 제공하고 그에 따라 프루닝한다.

실험 결과

연구 질문

  • RQ1표준 구조화 프루닝 방법이 NLG 작업에서 디코더-전용 LLM에 대해 무작위 프루닝에 비해 어떤 성능을 보이는가?
  • RQ2생성 모델에서 프루닝 성능과 가장 잘 상관하는 중복성 특성은 무엇인가(민감도 대 고유성)?
  • RQ3뉴런 고유성을 명시적으로 촉진하는 프루닝 전략(GUM)이 다양한 데이터/태스크 및 모델 크기에서 기존 방법을 능가할 수 있는가?
  • RQ4지식 증류가 서로 다른 프루닝 방법들 간의 성능 차이에 어떤 영향을 미치는가?

주요 결과

  • 무작위 프루닝은 여러 NLG 작업에서 종종 기존 방법과 거의 비슷한 성능을 보이며, 특히 증류와 함께 사용할 때 더 그렇다.
  • 증류는 프루닝 방법 간의 격차를 줄여 더 정교한 프루닝의 이점을 감소시킨다.
  • 민감도와 고유성을 기반으로 한 프레임워크는 방법의 성능에 대한 설명을 제공하고 프루닝 결과와 상관관계를 보인다.
  • GUM은 일반적으로 전통적인 방법보다 높은 고유성을 달성하면서 합리적인 민감도를 유지하여 성능을 개선하며, 그 이익은 모델 크기와 태스크에 따라 커진다.
  • 하드 이동은 증류 없이도 높은 민감도와 강한 성능을 제공하지만, GUM은 여전히 경쟁력이 있고 증류의 혜택을 받는다.
  • 태스크 전반에 걸쳐 프루닝을 늘리면 민감도는 감소하고 고유성은 증가하며, 두 지표의 균형이 가장 좋은 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.