QUICK REVIEW

[論文レビュー] Optimal Scalar Quantization for Matrix Multiplication: Closed-Form Density and Phase Transition

Calvin Ang, Sungyoon Kim|arXiv (Cornell University)|Mar 20, 2026

Stochastic Gradient Optimization Techniques被引用数 0

ひとこと要約

この研究は、行列乗算のための高レート・閉形式スカラー量子化戦略を導出し、相関ガウス対の密度ベースの位相遷移を明らかにし、合成データとLLM活性化で検証する。

ABSTRACT

We study entrywise scalar quantization of two matrices prior to multiplication. Given $A\in R^{m imes k}$ and $B\in R^{k imes n}$, we quantize entries of $A$ and $B$ independently using scalar quantizers with $K_X$ and $K_Y$ levels per entry, and form $\widehat C=\widehat A\,\widehat B$. The objective is to minimize the matrix multiplication mean-squared error (MSE) $E[\|{AB-\widehat A\widehat B}\|_F^2]$ under a pair-i.i.d.\ inner-product model. In the high-resolution regime $K_X,K_Y o\infty$, we derive a sharp $K^{-2}$ asymptotic expansion for $\mathcal{E}$, identify the exact optimal leading constants, and characterize asymptotically optimal quantization center densities in terms of conditional second moments. We then specialize to correlated Gaussian multiplicative pairs, obtaining a closed-form optimal point density \[ λ^\star(u)\ \propto\ \exp\!\left(-\frac{u^2}{6} ight)\bigl((1-ρ^2)+ρ^2u^2\bigr)^{1/3}, \qquad u=\frac{x}{σ_X}, \] with the same form for $y/σ_Y$, and prove a correlation-driven phase transition: the density is unimodal at the origin for $|ρ|\leq 1/\sqrt{3}$ and becomes bimodal for $|ρ|>1/\sqrt{3}$ with peaks at $u_{\mathrm{peak}}=\pm\sqrt{3-1/ρ^2}$. We show our method's applicability in synthetic experiments such as matrix multiplication quantization and least squares optimization, as well as quantization of large language model key and query activations.

研究の動機と目的

distortion が入力再構成ではなく積 AB に対して測定される行列乗算の量子化設計を動機付ける。
pair-i.i.d. 内積モデルの下で量子化された A と B に対する高レート・リーディング項の MSE 展開を導出する。
一般分布に対する最適なコンパンディング密度と定数を得る。相関ガウス対に対して閉形式の結果を提供する。
合成実験とトランスフォーマーモデルの活性化量子化を通じて方法性を実証する。

提案手法

行列乗算 MSE を、条件付き二次モーメント w_X および w_Y に支配される二つの加重スカラ MSE 問題へ還元する。
高レートのコンパニング量子化器下で E の鋭い K^{-2}漸近スケーリングを示し、最適点密度 lambda_X^* および lambda_Y^* を導出する。
相関ガウス対へ特化して、|ρ|=1/√3 で位相遷移を持つ閉形式の lambda^* を得る。
レート形と X, Y の最適ビット分割を表現する系電論を提供し、ガウス高レート定数 J(ρ) を計算する。
理論を合成的な行列乗算、量子化済み最小二乗法、GPT-2 および Qwen3 モデルにおける活性化量子化を通じて検証する。

Figure 1 : Optimal density phase transition. When $\rho=0$ , there is only a single mode. As $\rho$ increases, an additional mode emerges at the critical value $\left\lvert\rho\right\rvert=1/\sqrt{3}$ .

実験結果

リサーチクエスチョン

RQ1A と B が要素ごとに量子化されたとき、Frobenius MSE が最小になるスカラー量子化方式は何か？
RQ2ペア-i.i.d. 内積の下で最適な行列乗算 MSE の高レート漸近挙動と主要定数は何か？
RQ3条件付き二次モーメンツは A および B の最適なコンパンディング密度をどのように形成するか？
RQ4相関があるガウスの場合、最適密度の明示的形と相関に関する位相遷移はあるか？
RQ5提案する量子化器は実用的なタスク（量子化行列乗算、量子化最小二乗法、トランスフォーマーの活性化量子化）を改善するか？

主な発見

行列乗算 MSE は E = mnk(I_X^3/(12 K_X^2) + I_Y^3/(12 K_Y^2)) + o(K^{-2}) のスケーリングを持つ。
各エントリの最適量子化器はコンパニング量子化器であり、密度 lambda_X^*(x) ∝ (f_X(x) w_X(x))^{1/3} および lambda_Y^*(y) ∝ (f_Y(y) w_Y(y))^{1/3}。
相関ガウス対では、閉形式の最適密度は lambda^*(x) ∝ exp(-x^2/6σ_X^2) ((1-ρ^2)+ρ^2 x^2/σ_X^2)^{1/3}、|ρ|=1/√3 で一峰性から二峰性の位相遷移を持つ。
位相遷移は小さな |ρ| で単峰、より大きな |ρ| で対称な二峰を生み、ピーク位置は u_peak = ±√(3 - 1/ρ^2)。
系電論はレート形と最適なビット分割を提供：総レートが一定のとき K_X と K_Y は (α_X/α_Y)^{1/4} のバランスを取る。

Figure 2 : Performance of our optimal quantizer vs. other commonly used quantizers.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。