QUICK REVIEW

[논문 리뷰] ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation

Zhewei Yao, Xiaoxia Wu|arXiv (Cornell University)|2023. 03. 15.

Topic Modeling인용 수 15

한 줄 요약

이 논문은 모델 계열(OPT 및 BLOOM)과 규모에 걸친 포스트 트레이닝 양자화(PTQ) 연구를 포괄적으로 수행하고, 가중치-전용, 활성화-전용, 가중치-활성화 양자화를 RTN, GPTQ, ZeroQuant 변형과 비교하며, 최소한의 크기 증가로 모델 품질 회복을 위해 LoRC를 도입한다.

ABSTRACT

Post-training quantization (PTQ) has emerged as a promising technique for mitigating memory consumption and computational costs in large language models (LLMs). However, a systematic examination of various quantization schemes, model families, and quantization bit precision has been absent from the literature. In this paper, we conduct a comprehensive analysis of these factors by investigating the effects of PTQ on weight-only, activation-only, and weight-and-activation quantization using diverse methods such as round-to-nearest (RTN), GPTQ, ZeroQuant, and their variants. We apply these methods to two distinct model families with parameters ranging from 125M to 176B. Our contributions include: (1) a sensitivity analysis revealing that activation quantization is generally more susceptible to weight quantization, with smaller models often outperforming larger models in terms of activation quantization; (2) an evaluation and comparison of existing PTQ methods to optimize model size reduction while minimizing the impact on accuracy, revealing that none of the current methods can achieve the original model quality for quantization with either INT4-weight or INT4-weight-and-INT8-activation; (3) based on these insights, we propose an optimized method called Low-Rank Compensation (LoRC), which employs low-rank matrices to enhance model quality recovery with a minimal increase in model size.

연구 동기 및 목표

가중치-전용, 활성화-전용, 가중치-활성화 양자화 하에 다양한 규모의 모델 및 계열에서 PTQ가 어떻게 작동하는지 평가한다.
RTN, GPTQ, ZeroQuant 변형 등 기존 PTQ 방법이 정확도를 유지하면서 모델 크기를 축소하는 능력을 평가한다.
모델과 규모에 걸친 활성화 양자화와 가중치 양자화 간 민감도 패턴을 식별한다.
FP16 품질의 성능을 회복하기 위한 저랭크 보정 기법으로 PTQ를 개선한다.
모델 크기 그룹별 실용적인 양자화 가이드라인을 제공한다.

제안 방법

RTN, GPTQ, ZeroQuant 및 변형을 사용하여 OPT 및 BLOOM 모델(125M에서 176B)에 가중치-전용, 활성화-전용, 가중치-활성화 양자화를 적용한다.
활성화 대 가중치 양자화에 대한 민감도 분석을 수행하며, 대칭/비대칭 양자화 및 행별/토큰별 스키마를 포함한다.
최대한의 크기 감소와 최소의 perplexity 저하를 달성하도록 최적화된 구성을 통해 PTQ 방법을 비교한다.
LoRC(Low Rank Compensation)을 도입하여 양자화 오차 E = W - W_hat를 SVD로 저랭크 U와 V로 인수분해하여 양자화 가중치를 보강한다.
FGQ(Fine-Grained Quantization)와 함께 LoRC를 시연하고 매개변수 오버헤드를 정량화하며 최적의 저랭크 차원 m을 분석한다.
모델 크기 및 양자화 설정별 실용적인 양자화 권고안을 제시한다.

실험 결과

연구 질문

RQ1서로 다른 크기와 사전학습 데이터의 LLM이 양자화하에서 비슷한 동작을 보이나?
RQ2기존 PTQ 방법들이 정확도를 희생하지 않고 LLM 크기를 효과적으로 최소화하고 있는가?
RQ3가중치-전용, 활성화-전용, 가중치-활성화 양자화가 모델 계열(OPT와 BLOOM) 간에 어떻게 비교되는가?
RQ4FGQ 및 PTQ와 결합 시 LoRC가 최소한의 크기 증가로 모델 품질 회복을 개선할 수 있는가?
RQ5서로 다른 모델 크기에 대해 어떤 실용적인 양자화 설정이 권장되는가?

주요 결과

활성화 양자화는 일반적으로 모델 전반에 걸쳐 가중치 양자화에 더 민감하다; 작은 모델이 활성화 양자화에서 종종 더 큰 모델보다 우수하다.
기존 PTQ 방법들이 INT4 가중치 또는 INT4 가중치와 INT8 활성화(W4A8) 양자화에서 원래 모델 품질에 도달하기 어렵다.
LoRC는 저랭크 매트릭스로 양자화 오차를 근사하여 매개변수 오버헤드를 거의 늘리지 않고 모델 품질을 개선하며, FGQ와 결합했을 때 이득이 더 크다.
GPTQ는 가중치-전용 양자화에서 가장 잘 작동하는 경향이 있으며, ZeroQuant 변형은 일반적으로 가중치-활성화 양자화에서 더 나은 성능을 보인다.
FGQ는 오차를 크게 감소시켜 대형 모델(≥10B)에서 4비트 가중치를 사용할 때 Class -1 성능을 가능하게 하며, 활성화 블록 크기와 모델 크기가 이득에 영향을 준다.
LoRC는 INT4 양자화에서 FP16 품질에 거의 근접한 회복을 가능하게 하며, 최적 이득은 저랭크(m ≈ 4–8)에서 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.