Skip to main content
QUICK REVIEW

[논문 리뷰] High-Rate Quantized Matrix Multiplication: Theory and Practice

Or Ordentlich, Yury Polyanskiy|arXiv (Cornell University)|2026. 01. 23.
Stochastic Gradient Optimization Techniques인용 수 0
한 줄 요약

이 논문은 두 설정에서 양자화된 행렬곱에 대한 고속 정보이론 한계를 도출하고(일반 MatMul 및 가중치 전용 양자화), 일반적인 양자화기를 분석하며 WaterSIC를 거의 최적에 가까운 스킴으로 소개한다.

ABSTRACT

This work investigates the problem of quantized matrix multiplication (MatMul), which has become crucial for the efficient deployment of large language models (LLMs). We consider two settings: 1) Generic MatMul, where both matrices must be quantized (weight+activation quantization); and 2) weight-only quantization, where the second matrix is only known through covariance matrix $Σ_X$ of its columns. For each setting, we first review the fundamental information-theoretic tradeoff between quantization rate and distortion (high-rate theory), and then analyze the performance of several popular quantization schemes, comparing them to these fundamental limits. Specifically, we discuss rate loss (compared to information theoretic optima) of absmax INT and floating-point (FP) quantization, for which we also derive remarkably accurate heuristic approximations. Weight-only quantization is related to the problem of weighted mean squared error (WMSE) source coding, whose classical (reverse) waterfilling solution dictates how one should distribute rate between coordinates of the vector. We show how waterfilling can be used to improve practical LLM quantization algorithms (GPTQ), which at present allocate rate equally. This new scheme (termed ``WaterSIC'') only uses scalar INT quantizers, but its high-rate performance is basis free (it depends only on the determinant of $Σ_X$ and, thus, unlike existing schemes, is immune to applying random rotations) and is within a multiplicative factor of $\frac{2πe}{12}$ (or 0.25 bit/entry) of the information-theoretic distortion limit (!). GPTQ's performance is affected by the choice of basis, but for a random rotation and actual $Σ_X$ from Llama-3-8B we find GPTQ to be within 0.1 bit (depending on the layer type) of WaterSIC, suggesting that GPTQ with random rotation is also near optimal (for high-rate quantization).

연구 동기 및 목표

  • LLM 배포에서 양자화된 MatMul을 병목으로 동기부여하고 속도-왜곡 트레이드오프를 정량화한다.
  • 일반적인 MatMul 및 가중치 전용 양자화에 대해 행렬 통계 정보를 이용한 근본적인 고속-왜곡 한계를 확립한다.
  • 정보이론적 한계에 대해 인기 있는 양자화기(absmax INT, FP, NVFP4)를 평가하고 실용적인 근사를 도출한다.
  • WaterSIC를 도입하고 이론적 한계에 비해 거의 최적의 성능을 보임을 보인다.]
  • methodology_placeholder_
  • method=[]

제안 방법

  • A^T B에 대한 Rate-R 양자화 스킴을 공유 난수와 A와 B에 대한 인코더와 함께 형식화한다.
  • 고속 비율 가정 하에서 최악의 경우 및 평균-가우시안 입력에 대한 왜곡 한계를 도출한다.
  • absmax INT, FP, NVFP4 양자화기를 분석하고 K(i,j)·2·2^{-2R_eff} 형태의 근사 왜곡을 얻는다.
  • 공분산 Sigma_X를 사용한 가중치 전용 양자화 프레임워크를 개발하고 최적의 워터필링 기반 배분을 도출한다.
  • 각 좌표의 비율 할당 스킴인 WaterSIC를 제안하고 왜곡을 정보이론적 최적치의 일정 상수배 이내로 구현한다.
  • WaterSIC를 GPTQ/LDLQ와 관련짓고 기반 선택 및 회전 불변성에 대해 논의한다.]
  • research_questions_public_placeholder_
  • research_questions:
  • - 일반 양자화된 MatMul의 근본적인 고속-고려비한정치를 무엇인가?
  • - 일반 MatMul 설정에서 INT, FP, NVFP4 양자화기가 이러한 한계에 대해 어떤 성능을 보이는가?
  • - 가중치 전용 양자화에서 Sigma_X의 지식은 거의 최적의 비율 배분과 왜곡을 어떻게 가능하게 하는가?
  • - 실용적 스킴(WaterSIC)이 복잡한 벡터 양자화 없이도 근사 최적의 왜곡을 달성할 수 있는가?
  • - 회전이나 기반 선택이 실용적 양자화기(GPTQ 등)에 고속-양자화 구간에서 어떤 영향을 주는가?]
  • key_findings: ["고속 양자화에서 (i,j) 항목에 대해 달성 가능한 최소 왜곡은 K(i,j)·2·2^{-2R}로 스케일되며, K(i,j)는 열의 노름에 의존한다.","INT 및 FP 양자화기의 경우 왜곡은 K(i,j)·2·2^{-2R_eff}로 근사될 수 있으며, 비최적화를 나타내는 속도 차이 R−R_eff가 존재한다.","Sigma_X 인식이 있는 가중치 전용 양자화는 워터필링 최적에 근접한 왜곡을 보이며 WaterSIC 하에서 항목당 정보이론적 한계까지의 간격은 최대 0.25 비트이다.","실무에서 GPTQ/LDLQ 성능은 WaterSIC에 근접하며, 무작위 회전은 고속 양자화에서 GPTQ를 거의 최적에 가깝게 만들 수 있다.","WaterSIC는 정보이론적 한계의 2πe/12(≈0.25 비트/항목) 배의 곱으로 왜곡을 달성하며 Sigma_X 하에서 기저 불변이다."]
  • table_headers: []
  • table_rows: []}]}{
  • analysis_placeholder_
(a) Histogram of rounding errors
(a) Histogram of rounding errors

실험 결과

연구 질문

  • RQ1What are the fundamental high-rate rate-distortion limits for generic quantized MatMul?
  • RQ2How do common quantization schemes (INT, FP, NVFP4) perform relative to these limits in the generic MatMul setting?
  • RQ3In weight-only quantization, how does knowledge of Sigma_X enable near-optimal rate allocation and distortion?
  • RQ4Can a practical scheme (WaterSIC) achieve near-optimal distortion without complex vector quantization?
  • RQ5How do rotations or basis choices affect practical quantizers like GPTQ in high-rate regimes?

주요 결과

  • The smallest achievable distortion for the (i,j) entry in A^T B under high-rate quantization scales as K(i,j)·2·2^{-2R}, with K(i,j) depending on column norms.
  • For INT and FP quantizers, distortion can be approximated as K(i,j)·2·2^{-2R_eff}, with a rate gap R−R_eff characterizing suboptimality.
  • Weight-only quantization with Sigma_X awareness yields distortion approaching the waterfilling optimum, with a gap to the information-theoretic limit of at most 0.25 bit per entry under WaterSIC.
  • GPTQ/LDLQ performance is close to WaterSIC in practice, and random rotations can make GPTQ near-optimal in high-rate quantization.
  • WaterSIC achieves distortion within a multiplicative factor 2πe/12 (≈0.25 bit/entry) of the information-theoretic limit, and is basis-invariant under Sigma_X.
(b) MSE as a function of scaling coefficient $\gamma$
(b) MSE as a function of scaling coefficient $\gamma$

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.