Skip to main content
QUICK REVIEW

[논문 리뷰] ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Xin Men, Mingyu Xu|arXiv (Cornell University)|2024. 03. 06.
Topic Modeling인용 수 15
한 줄 요약

ShortGPT는 LLM에서 층 단위의 중복이 크게 나타나며, 저 BI 층을 제거하여 모델을 가지치고 약 25% 정도 매개변수 감소로 대부분의 성능을 유지하며, 양자화와는 직교적이다.

ABSTRACT

As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.

연구 동기 및 목표

  • 매개변수 수준의 중복을 넘는 LLM의 층 단위 중복이 있는지 조사한다.
  • Block Influence(BI)라는 지표를 개발하여 LLM에서 각 층의 중요도를 정량화한다.
  • BI를 안내로 하는 간단한 층 제거 가지치기 방법을 제안하고 평가한다.
  • 층 가지치기가 양자화와 직교적이며 다른 압축 방법을 보완할 수 있음을 보여준다.
  • 벤치마크와 모델 전반에 걸친 층 가지치기의 한계와 범위를 평가한다.

제안 방법

  • 추론 중 각 층이 은닉 상태를 얼마나 변환하는지 측정하기 위해 Block Influence(BI)를 정의한다.
  • 보정 집합에서 수집한 은닉 상태를 사용해 BI를 보정하고 BI로 층의 순위를 매긴다.
  • 가장 작은 BI 점수를 가진 층을 제거하는 방식으로 층 제거를 수행한다(오름차순 BI).
  • 다수의 오픈소스 LLM에서 표준 벤치마크(MMLU, CMMLU 등)에 대해 가지치기된 모델을 평가한다.
  • 최신 가지치기 방법과 비교하고 깊이 대비 폭의 중복을 분석한다.
  • 양자화된 Llama-2-7B-Base 모델에 가지치기를 적용하여 양자화와의 직교성을 입증한다.

실험 결과

연구 질문

  • RQ1층 수준의 중복이 BI 지표로 신뢰성 있게 측정될 수 있는가?
  • RQ2다른 모델과 과제들에 걸쳐 저 BI 층을 제거할 때 얼마나 많은 성능이 유지되는가?
  • RQ3현재 LLM 아키텍처에서 층 가지치기가 주로 깊이(depth) 기반인가 폭(width) 기반인가?
  • RQ4BI 기반 층 제거가 양자화 기법을 보완하여 추가적인 비용 감소가 가능한가?

주요 결과

  • LLMs는 층 단위의 중복이 상당하며, 특히 더 깊은 층에서 그러하다.
  • BI(Block Influence)는 층의 중요도를 효과적으로 포착하고 가지치기를 안내한다.
  • ShortGPT는 약 92%의 성능을 유지하면서 매개변수와 계산을 약 25% 줄여 이전 가지치기 방법을 능가한다.
  • 층 제거(깊이 가지치기)가 임베딩 차원 가지치기와 같은 폭 축소 방법보다 일반적으로 우수한 경향이 있다.
  • 가지치기 방법은 양자화와 직교적이며 추가 압축을 위해 결합할 수 있다.
  • 트랜스포머 기반 모델은 물론 RWKV와 같은 비-트랜스포머 아키텍처에서도 중복이 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.