Skip to main content
QUICK REVIEW

[논문 리뷰] SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

Elias Frantar, Dan Alistarh|arXiv (Cornell University)|2023. 01. 02.
Topic Modeling인용 수 69
한 줄 요약

SparseGPT는 재학습 없이 거대 GPT 계열 모델(예: OPT-175B, BLOOM-176B)을 50–60%의 비구조적 희소성으로 가지치기할 수 있는 원샷 가지치기 방법을 제시합니다. 정확도 손실은 무시할 정도이며.

ABSTRACT

We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. We can execute SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, in under 4.5 hours, and can reach 60% unstructured sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches. The code is available at: https://github.com/IST-DASLab/sparsegpt.

연구 동기 및 목표

  • 재학습 없이 배포 비용과 추론 지연을 줄이기 위해 대규모 GPT 규모 모델의 압축 필요성을 동기 부여합니다.
  • 10–100+ billion parameter transformers에 맞춘 확장 가능한 원샷 가지치기 방법인 SparseGPT를 소개합니다.
  • 더 큰 모델일수록 더 높은 압축이 가능하며 작은 정확도 손실로 높은 희소성까지 가지치기할 수 있음을 보여줍니다.
  • SparseGPT가 반구조적 희소성 패턴과 가중치 양자화와의 호환성을 입증하여, 희소화와 양자화를 결합한 방법을 가능하게 합니다.

제안 방법

  • 가지치기 문제를 새로운 근사 희소 회귀 해법으로 해결되는 대규모 희소 회귀 문제로 축약합니다.
  • 가지치기 후 입력-출력 관계를 보존하기 위한 적응형 계층별 해essian 기반 업데이트를 사용하는 빠른 재구성 기법을 개발합니다.
  • 열(column) 단위 업데이트의 연속을 통해 역 해essian를 재사용하여 행 간 헤essian를 동기화하고, 계층당 전체 비용 O(d_hidden^3)을 달성합니다.
  • 레이어 간 비균일 희소성 분포를 위해 열을 청크로 분할하는 적응형 마스킹 전략을 사용하고, OBS 기반 오류 추정에 따라 이를 안내합니다.
  • 블록 내 희소성 제약을 강제하기 위해 블록 처리를 조정하여 반구조적 희소성(2:4, 4:8)을 확장합니다.
  • 가중치 양자화를 가지치기 패스에 통합하고 업데이트에 그 영향을 전달하여 희소화와 양자화를 함께 수행할 수 있게 합니다.
Figure 1: Sparsity-vs-perplexity comparison of SparseGPT against magnitude pruning on OPT-175B, when pruning to different uniform per-layer sparsities.
Figure 1: Sparsity-vs-perplexity comparison of SparseGPT against magnitude pruning on OPT-175B, when pruning to different uniform per-layer sparsities.

실험 결과

연구 질문

  • RQ1원샷 가지치기로 재학습 없이 GPT 규모의 모델에서 상당한 희소성을 달성할 수 있을까?
  • RQ2트릴리언 파라미터 규모의 트랜스포머 계열에서 비구조적 및 반구조적 희소성을 얼마나 멀리까지 밀어붙일 수 있으며, 정확도 손실은 최소화될까?
  • RQ3가지치기 성능이 모델 크기와 상관관계가 있는가, 즉 더 큰 모델이 더 압축이 용이한가?
  • RQ4희소화가 정확도 저하 없이 단일 패스에서 가중치 양자화와 효과적으로 결합될 수 있는가?
  • RQ5대형 LLM에서 실용적인 마스킹 전략은 어떤 방식이 sparsity를 비균일하게 각 계층에 가장 잘 분포시키는가?

주요 결과

  • SparseGPT는 OPT-175B와 BLOOM-176B에서 원샷으로 50–60%의 비구조적 희소성을 달성하되 퍼플렉시티 감소는 미미합니다.
  • 더 큰 모델일수록 더 큰 압축성이 나타나며, 고정된 희소성에서 더 작은 모델보다 정확도 손실이 작습니다.
  • 2:4와 4:8 반구조적 희소성은 비구조적 희소성과 비교하여 매우 큰 모델에서 추가적인 작은 정확도 손실로 달성될 수 있습니다.
  • 매우 큰 모델에서 한 번의 패스로 희소화와 4비트 가중치 양자화를 함께 수행할 수 있으며, 퍼플렉시티 증가가 무시할 수준입니다.
  • SparseGPT는 단일 A100 GPU에서 작동하며 OPT-175B와 BLOOM-176B를 4.5시간 미만에 가지치기해 실제적인 확장성을 입증합니다.
Figure 2: Perplexity vs. model and sparsity type when compressing the entire OPT model family (135M, 350M, …, 66B, 175B) to different sparsity patterns using SparseGPT .
Figure 2: Perplexity vs. model and sparsity type when compressing the entire OPT model family (135M, 350M, …, 66B, 175B) to different sparsity patterns using SparseGPT .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.