[논문 리뷰] Evaluating Quantized Large Language Models
본 논문은 11개 LLM 계열(125M–180B)에서 가중치, 활성화, KV 캐시의 사후 양자화가 미치는 영향을 포괄적으로 평가하여 기본 NLP, emergent abilities, 신뢰성, 대화, 그리고 장문 컨텍스트 작업에 걸친 양자화의 실용적 선택을 안내합니다.
Post-training quantization (PTQ) has emerged as a promising technique to reduce the cost of large language models (LLMs). Specifically, PTQ can effectively mitigate memory consumption and reduce computational overhead in LLMs. To meet the requirements of both high efficiency and performance across diverse scenarios, a comprehensive evaluation of quantized LLMs is essential to guide the selection of quantization methods. This paper presents a thorough evaluation of these factors by evaluating the effect of PTQ on Weight, Activation, and KV Cache on 11 model families, including OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, and Mamba, with parameters ranging from 125M to 180B. The evaluation encompasses five types of tasks: basic NLP, emergent ability, trustworthiness, dialogue, and long-context tasks. Moreover, we also evaluate the state-of-the-art (SOTA) quantization methods to demonstrate their applicability. Based on the extensive experiments, we systematically summarize the effect of quantization, provide recommendations to apply quantization techniques, and point out future directions. The code can be found in https://github.com/thu-nics/qllm-eval.
연구 동기 및 목표
- 광범위한 LLM과 작업 유형에 걸친 가중치, 활성화 및 KV 캐시 텐서에 대한 PTQ의 영향을 평가한다.
- 텐서 유형, 모델 크기, 작업 유형이 양자화 내성을 어떻게 좌우하는지 특성화한다.
- 다양한 시나리오에 대한 비트폭 및 양자화 전략에 대한 실용적 권고를 제공한다.
- 최신 양자화 방법과 향후 연구를 위한 개방 방향을 비교한다.
제안 방법
- 세 가지 PTQ 유형인 Weight-only, Weight-Activation, KV Cache 양자화를 평가한다.
- 가중치와 K/V에 비대칭 그룹별 양자화, 활성화에 대해 대칭적 토큰당 양자화를 사용하고 다양한 비트폭(W2–W8, KV2–KV8)을 적용한다.
- 다양한 입자 크기의 모델에서 AbsMax, Std, Kurtosis를 통해 서로 다른 세분화로 텐서를 양자화하고 분석한다.
- OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, Mamba 등 11개 모델 계열(125M–180B)을 벤치마크한다.
- 다섯 가지 작업 유형(기본 NLP, emergent abilities, trustworthiness, 대화, 장문 처리)에 대해 평가한다.
- 정성적 경향을 보고, 권고 및 한계를 제시한다.
실험 결과
연구 질문
- RQ1가중치, 활성화, KV 캐시 양자화가 모델 계열 및 크기에 따라 성능에 어떤 영향을 미치는가?
- RQ2다른 비트폭 및 양자화 방식에 대한 작업별 및 텐서 수준 민감도는 어떠한가?
- RQ3SOTA 양자화 방법(AWQ, SmoothQuant 등)이 다양한 모델과 작업에서 성능 손실을 회복할 수 있는가?
- RQ4양자화 선택이 emergent abilities, 대화 품질, 신뢰성, 장문 처리에 어떤 영향을 미치는가?
주요 결과
- 모델 크기가 커질수록 가중치 및 KV 캐시 양자화에 대한 내성이 증가하지만 활성화 양자화에 대한 내성은 감소한다.
- 활성화 양자화는 더 큰 모델에서 더 높은 척도(커토시스)가 나타나고 이상치가 더 많아 가중치/KV 캐시 양자화보다 민감도가 큰 편이다.
- 대부분의 모델은 W4, W4A8, KV4에서 많은 작업에서 <2% 손실로 허용 가능한 성능을 유지합니다; W3/W2는 특히 작은 모델에서 눈에 띄는 저하를 유발한다.
- MoE 기반 확장(대형 모델)은 양자화 내성을 보편적으로 향상시키지 않으며, 민감도는 여전히 작은 형제들과 유사할 수 있다.
- Emergent abilities인 Multi-Step Reasoning 및 Self-Calibration은 Instruction-Following 및 In-Context Learning보다 양자화에 더 민감하며, 수학적 작업이 특히 취약하다.
- KV Cache 양자화는 장문 컨텍스트 작업에 더 큰 영향을 준다; 가중치 단독 양자화도 장문 컨텍스트 성능을 저하시킬 수 있으며, 장문 텍스트의 경우 일반적으로 KV8이 선호되고 중간 길이 컨텍스트에선 KV4가 더 적합하다.
- 대화 품질은 KV Cache 양자화를 더 잘 견디는 경향이 있으며, Extremely low bit-width(W2/W4A4)에서 AWQ나 SmoothQuant를 적용해도 대화 성능이 뚜렷하게 저하될 수 있으며, 다만 WA 양자화에 SmoothQuant를 적용하면 일부 경우 회복될 수 있다.
- 장문 컨텍스트 작업은 KV Cache 양자화에 더 높은 민감도를 보인다; 많은 모델에서 KV8은 짧은 컨텍스트의 손실 없이 작동하지만 KV4는 긴 컨텍스트에서 현저한 저하를 유발할 수 있다.]
- table_headers: []
- table_rows: []} ) }```json{
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.