[論文レビュー] Optimal Scalar Quantization for Matrix Multiplication: Closed-Form Density and Phase Transition
この研究は、行列乗算のための高レート・閉形式スカラー量子化戦略を導出し、相関ガウス対の密度ベースの位相遷移を明らかにし、合成データとLLM活性化で検証する。
We study entrywise scalar quantization of two matrices prior to multiplication. Given $A\in R^{m imes k}$ and $B\in R^{k imes n}$, we quantize entries of $A$ and $B$ independently using scalar quantizers with $K_X$ and $K_Y$ levels per entry, and form $\widehat C=\widehat A\,\widehat B$. The objective is to minimize the matrix multiplication mean-squared error (MSE) $E[\|{AB-\widehat A\widehat B}\|_F^2]$ under a pair-i.i.d.\ inner-product model. In the high-resolution regime $K_X,K_Y o\infty$, we derive a sharp $K^{-2}$ asymptotic expansion for $\mathcal{E}$, identify the exact optimal leading constants, and characterize asymptotically optimal quantization center densities in terms of conditional second moments. We then specialize to correlated Gaussian multiplicative pairs, obtaining a closed-form optimal point density \[ λ^\star(u)\ \propto\ \exp\!\left(-\frac{u^2}{6} ight)\bigl((1-ρ^2)+ρ^2u^2\bigr)^{1/3}, \qquad u=\frac{x}{σ_X}, \] with the same form for $y/σ_Y$, and prove a correlation-driven phase transition: the density is unimodal at the origin for $|ρ|\leq 1/\sqrt{3}$ and becomes bimodal for $|ρ|>1/\sqrt{3}$ with peaks at $u_{\mathrm{peak}}=\pm\sqrt{3-1/ρ^2}$. We show our method's applicability in synthetic experiments such as matrix multiplication quantization and least squares optimization, as well as quantization of large language model key and query activations.
研究の動機と目的
- distortion が入力再構成ではなく積 AB に対して測定される行列乗算の量子化設計を動機付ける。
- pair-i.i.d. 内積モデルの下で量子化された A と B に対する高レート・リーディング項の MSE 展開を導出する。
- 一般分布に対する最適なコンパンディング密度と定数を得る。相関ガウス対に対して閉形式の結果を提供する。
- 合成実験とトランスフォーマーモデルの活性化量子化を通じて方法性を実証する。
提案手法
- 行列乗算 MSE を、条件付き二次モーメント w_X および w_Y に支配される二つの加重スカラ MSE 問題へ還元する。
- 高レートのコンパニング量子化器下で E の鋭い K^{-2}漸近スケーリングを示し、最適点密度 lambda_X^* および lambda_Y^* を導出する。
- 相関ガウス対へ特化して、|ρ|=1/√3 で位相遷移を持つ閉形式の lambda^* を得る。
- レート形と X, Y の最適ビット分割を表現する系電論を提供し、ガウス高レート定数 J(ρ) を計算する。
- 理論を合成的な行列乗算、量子化済み最小二乗法、GPT-2 および Qwen3 モデルにおける活性化量子化を通じて検証する。

実験結果
リサーチクエスチョン
- RQ1A と B が要素ごとに量子化されたとき、Frobenius MSE が最小になるスカラー量子化方式は何か?
- RQ2ペア-i.i.d. 内積の下で最適な行列乗算 MSE の高レート漸近挙動と主要定数は何か?
- RQ3条件付き二次モーメンツは A および B の最適なコンパンディング密度をどのように形成するか?
- RQ4相関があるガウスの場合、最適密度の明示的形と相関に関する位相遷移はあるか?
- RQ5提案する量子化器は実用的なタスク(量子化行列乗算、量子化最小二乗法、トランスフォーマーの活性化量子化)を改善するか?
主な発見
- 行列乗算 MSE は E = mnk(I_X^3/(12 K_X^2) + I_Y^3/(12 K_Y^2)) + o(K^{-2}) のスケーリングを持つ。
- 各エントリの最適量子化器はコンパニング量子化器であり、密度 lambda_X^*(x) ∝ (f_X(x) w_X(x))^{1/3} および lambda_Y^*(y) ∝ (f_Y(y) w_Y(y))^{1/3}。
- 相関ガウス対では、閉形式の最適密度は lambda^*(x) ∝ exp(-x^2/6σ_X^2) ((1-ρ^2)+ρ^2 x^2/σ_X^2)^{1/3}、|ρ|=1/√3 で一峰性から二峰性の位相遷移を持つ。
- 位相遷移は小さな |ρ| で単峰、より大きな |ρ| で対称な二峰を生み、ピーク位置は u_peak = ±√(3 - 1/ρ^2)。
- 系電論はレート形と最適なビット分割を提供:総レートが一定のとき K_X と K_Y は (α_X/α_Y)^{1/4} のバランスを取る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。