[논문 리뷰] SpinQuant: LLM quantization with learned rotations
SpinQuant은 LLM에서 가중치, 활성화 및 KV 캐시의 포스트-트레이닝 양자화를 개선하기 위해 회전 행렬을 학습하며, LLaMA-2/3 모델에서 4-bit 양자화 시 전체 정밀도 정확도와의 격차를 크게 줄인다. 이는 전체 정밀도 출력을 변경하지 않으면서 Stiefel 다양체에서 회전을 최적화하기 위해 Cayley SGD를 사용한다.
Post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large quantization errors when outliers are present. Rotating activation or weight matrices helps remove outliers and benefits quantization. In this work, we identify a collection of applicable rotation parameterizations that lead to identical outputs in full-precision Transformer architectures while enhancing quantization accuracy. In addition, we find that some random rotations lead to much better quantization than others, with an up to 13 points difference in downstream zero-shot reasoning performance. As a result, we propose SpinQuant, a novel approach that incorporates learned rotation matrices for optimal quantized network accuracy. With 4-bit quantization of weight, activation, and KV-cache, SpinQuant narrows the accuracy gap on zero-shot reasoning tasks with full precision to merely 2.9 points on the LLaMA-2 7B model, surpassing LLM-QAT by 19.1 points and SmoothQuant by 25.0 points. Furthermore, SpinQuant also outperforms concurrent work QuaRot, which applies random rotations to remove outliers. In particular, for LLaMA-3 8B models that are hard to quantize, SpinQuant reduces the gap to full precision by up to 45.1% relative to QuaRot. Code is available at https://github.com/facebookresearch/SpinQuant.
연구 동기 및 목표
- LLM에서 가중치와 활성화의 이상치로 인한 양자화 문제를 동기 부여하고 해결한다.
- 전체 정밀도 출력을 보존하면서 양자화를 개선하는 회전 기반 불변 파라미터화를 도입한다.
- Stiefel 다양체에서 Cayley SGD를 통해 회전을 학습하여 보정 셋(calibration set)에서 양자화 손실을 최소화한다.
- 여러 LLaMA-2/3 모델 크기와 태스크에서 기존 PTQ 방법에 비해 개선을 시연한다.
- GPTQ와의 호환성 및 회전 구성 요소 전반에 대한 강건성을 보여준다.
제안 방법
- 트랜스포머의 여러 지점에서 회전을 파라미터화하여 새로운 파라미터를 추가하지 않으면서 이상치를 줄인다.
- 가능하면 R1, R2를 가중치에 흡수하여 전체 정밀도 출력이 동일하게 유지되도록 한다.
- 흡수가 불가능한 KV-캐시 및 특정 블록에 대해 온라인 Hadamard 회전 R3와 R4를 사용한다.
- Stiefel 다양체에서 Cayley SGD를 사용해 R1과 R2를 최적화하여 작은 보정 세트에서 양자화 손실을 최소화한다.
실험 결과
연구 질문
- RQ1잔여 경로, 어텐션 및 KV-캐시 경로에서 학습된 회전이 이상치를 sufficiently 줄여 LLM의 4-bit 양자화를 개선할 수 있는가?
- RQ2Stiefel 다양체에서 Cayley SGD로 회전 최적화가 임의 회전 및 Hadamard 회전에 비해 일관된 이득을 제공하는가?
- RQ3SpinQuant가 LLaMA-2/3 모델 및 4-bit 설정에서 GPTQ, SmoothQuant, QuaRot 등의 최신 PTQ 방법과 비교하여 성능이 어떤가?
- RQ4회전 기반 접근 방식이 기존 양자화 파이프라인과 호환되고 전체 정밀도 네트워크 출력과 독립적인가?
- RQ5개별 회전 구성요소(R1–R4)가 양자화 성능에 미치는 영향은?
주요 결과
- Cayley SGD를 통한 회전 행렬 최적화가 무작위 회전보다 여러 모델과 태스크에서 양자화 성능을 크게 향상시킨다.
- 4-bit W-A-KV 양자화에서 SpinQuant는 전체 정밀도와의 격차를 몇 포인트로 줄이며(예: LLaMA-2 7B에서 2.9 포인트) QuaRot 및 SmoothQuant를 제로샷 태스크에서 능가한다.
- 회전 기반 양자화는 활성화와 가중치 양자화를 모두 개선하여 이상치를 더 고르게 분포시켜 양자화 오차를 줄인다.
- SpinQuant는 양자화가 어려운 모델(LLaMA-3 8B/70B)에서 강한 개선을 보이고 GPTQ와의 호환성을 유지한다.
- 삭제 연구에서 여러 회전(R1–R4)을 추가하면 일반적으로 정확도가 향상되며, R4(온라인)가 KV 관련 경로에서 주목할 만한 이점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.