QUICK REVIEW

[논문 리뷰] SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

Elias Frantar, Dan Alistarh|arXiv (Cornell University)|2023. 01. 02.

Topic Modeling인용 수 69

한 줄 요약

SparseGPT는 재학습 없이 거대 GPT 계열 모델(예: OPT-175B, BLOOM-176B)을 50–60%의 비구조적 희소성으로 가지치기할 수 있는 원샷 가지치기 방법을 제시합니다. 정확도 손실은 무시할 정도이며.

ABSTRACT

We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. We can execute SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, in under 4.5 hours, and can reach 60% unstructured sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches. The code is available at: https://github.com/IST-DASLab/sparsegpt.

연구 동기 및 목표

재학습 없이 배포 비용과 추론 지연을 줄이기 위해 대규모 GPT 규모 모델의 압축 필요성을 동기 부여합니다.
10–100+ billion parameter transformers에 맞춘 확장 가능한 원샷 가지치기 방법인 SparseGPT를 소개합니다.
더 큰 모델일수록 더 높은 압축이 가능하며 작은 정확도 손실로 높은 희소성까지 가지치기할 수 있음을 보여줍니다.
SparseGPT가 반구조적 희소성 패턴과 가중치 양자화와의 호환성을 입증하여, 희소화와 양자화를 결합한 방법을 가능하게 합니다.

제안 방법

가지치기 문제를 새로운 근사 희소 회귀 해법으로 해결되는 대규모 희소 회귀 문제로 축약합니다.
가지치기 후 입력-출력 관계를 보존하기 위한 적응형 계층별 해essian 기반 업데이트를 사용하는 빠른 재구성 기법을 개발합니다.
열(column) 단위 업데이트의 연속을 통해 역 해essian를 재사용하여 행 간 헤essian를 동기화하고, 계층당 전체 비용 O(d_hidden^3)을 달성합니다.
레이어 간 비균일 희소성 분포를 위해 열을 청크로 분할하는 적응형 마스킹 전략을 사용하고, OBS 기반 오류 추정에 따라 이를 안내합니다.
블록 내 희소성 제약을 강제하기 위해 블록 처리를 조정하여 반구조적 희소성(2:4, 4:8)을 확장합니다.
가중치 양자화를 가지치기 패스에 통합하고 업데이트에 그 영향을 전달하여 희소화와 양자화를 함께 수행할 수 있게 합니다.

Figure 1: Sparsity-vs-perplexity comparison of SparseGPT against magnitude pruning on OPT-175B, when pruning to different uniform per-layer sparsities.

실험 결과

연구 질문

RQ1원샷 가지치기로 재학습 없이 GPT 규모의 모델에서 상당한 희소성을 달성할 수 있을까?
RQ2트릴리언 파라미터 규모의 트랜스포머 계열에서 비구조적 및 반구조적 희소성을 얼마나 멀리까지 밀어붙일 수 있으며, 정확도 손실은 최소화될까?
RQ3가지치기 성능이 모델 크기와 상관관계가 있는가, 즉 더 큰 모델이 더 압축이 용이한가?
RQ4희소화가 정확도 저하 없이 단일 패스에서 가중치 양자화와 효과적으로 결합될 수 있는가?
RQ5대형 LLM에서 실용적인 마스킹 전략은 어떤 방식이 sparsity를 비균일하게 각 계층에 가장 잘 분포시키는가?

주요 결과

SparseGPT는 OPT-175B와 BLOOM-176B에서 원샷으로 50–60%의 비구조적 희소성을 달성하되 퍼플렉시티 감소는 미미합니다.
더 큰 모델일수록 더 큰 압축성이 나타나며, 고정된 희소성에서 더 작은 모델보다 정확도 손실이 작습니다.
2:4와 4:8 반구조적 희소성은 비구조적 희소성과 비교하여 매우 큰 모델에서 추가적인 작은 정확도 손실로 달성될 수 있습니다.
매우 큰 모델에서 한 번의 패스로 희소화와 4비트 가중치 양자화를 함께 수행할 수 있으며, 퍼플렉시티 증가가 무시할 수준입니다.
SparseGPT는 단일 A100 GPU에서 작동하며 OPT-175B와 BLOOM-176B를 4.5시간 미만에 가지치기해 실제적인 확장성을 입증합니다.

Figure 2: Perplexity vs. model and sparsity type when compressing the entire OPT model family (135M, 350M, …, 66B, 175B) to different sparsity patterns using SparseGPT .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.