QUICK REVIEW

[論文レビュー] BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Ji-Fu Li, Manyi Zhang|arXiv (Cornell University)|Mar 17, 2026

Numerical Methods and Algorithms被引用数 0

ひとこと要約

BATQuant は Global と Private Kronecker 分解とブロックごとの切り捨てを備えたブロック単位のアファイン変換を導入し、MXFP4 を量子化して、MLLMs/LLMs の性能低下を最小限に抑えつつ、従来の PTQ 手法より優れる。特に過激な低ビット設定で顕著な改善を示す。

ABSTRACT

Microscaling floating-point (MXFP) formats have emerged as a promising standard for deploying Multi-modal Large Language Models (MLLMs) and Large Language Models (LLMs) on modern accelerator architectures. However, existing Post-Training Quantization (PTQ) methods, particularly rotation-based techniques designed for integer formats, suffer from severe performance collapse when applied to MXFP4. Recent studies attribute this failure to a fundamental format mismatch: global orthogonal rotations inadvertently transfer outlier energy across quantization blocks, inducing new outliers that disrupt local block-wise scaling, while often creating bimodal activation distributions that underutilize the limited quantization range. To address these issues, we propose BATQuant (Block-wise Affine Transformation), which restricts transformations to align with MXFP granularity to prevent cross-block outlier propagation, while relaxing orthogonality constraints to optimize distribution shaping. To ensure parameter efficiency, we introduce Global and Private Kronecker (GPK) decomposition to effectively reduces storage and runtime overhead and incorporate Block-wise Learnable Clipping to suppress residual outliers. Extensive experiments on both MLLMs and LLMs demonstrate that BATQuant establishes new state-of-the-art results under aggressive W4A4KV16 configurations, recovering up to 96.43% of full-precision performance on multimodal benchmarks and clearly outperforming existing methods across diverse tasks.

研究の動機と目的

グローバル回転がブロック間のアウトライヤ移動と双極分布の影響で破綻する場合に備え、MLLMs/LLMs 向けの堅牢な 4-bit MXFP 量子化を動機づける。
ブロック整列アファイン変換を開発し、ブロック間エネルギー移動を防ぎつつ分布整形を学習する。
Global and Private Kronecker (GPK) 分解を導入してパラメータと実行時オーバーヘッドを削減し、 residual アウトライヤを抑制するブロック単位の学習可能クリッピングを追加する。
悪条件の MXFP 設定の下で多様なモダリティと言語タスクにおける BATQuant の有効性を示す。

提案手法

MXFP の粒度に合わせてブロック対角行列 P を用い、MXFP グラニュラリティ（例: 32）にブロックを整列させてアウトライヤ移動を制限するブロック-wise アファイン変換（BAT）を導入する。
Global and Private Kronecker (GPK) 分解を適用：P_i = B_i ⊗ A、A はグローバルに共有、B_i はブロックごとにプライベートでパラメータを削減する。
局所統計に適応するためのブロック-wise 学習可能クリッピングを組み込み、ブロックごとのしきい値を学習させる。
カリブレーションセット上で層ごとの量子化誤差を最小化して学習可能パラメータを訓練する：Θ_l^* = argmin_Θ_l E_X∼D_cal [||F_l(X) − F̂_l(X; Θ_l)||_2^2]。
Transformer への BATQuant の統合：重み側オフライン融合と活性化側オンライン適用；特定のコンポーネントで BF16 を使用し、低ビットの GEMM を適用。
ブロックサイズ g=32 の MXFP 量子化を採用し、P ブロックサイズを g に合わせて局所的な分布整形を正確に行う。

実験結果

リサーチクエスチョン

RQ1BATQuant は MXFP4 の過激な設定 W4A4KV16 などで既存手法が劣化する状況でも高精度を維持できるか。
RQ2ブロック-wise アファイン変換と GPK クリッピングは MLLMs/LLMs、そしてマルチモーダルおよび言語タスク全体に一般化するか。
RQ3ブロックサイズの整列、GPK 配置、クリッピングが量子化性能とパラメータ効率に及ぼす影響はどうなるか。

主な発見

Bits	Method	MME	OCRBench	DocVQA	RealWorldQA	VLMBlind	Recovery(%)
W4A8KV16	RTN	2294	883	94.72	69.80	70.99	97.43
W4A8KV16	QuaRot	2327	870	95.07	69.80	71.12	97.53
W4A8KV16	SpinQuant	2321	872	94.79	70.46	69.82	97.29
W4A8KV16	BRQ	2329	865	94.72	70.19	67.18	96.40
W4A8KV16	FlatQuant	2351	886	95.31	69.02	73.90	98.66
W4A8KV16	SmoothQuant	2349	885	94.81	70.06	69.46	97.61
W4A8KV16	GPTQ	2346	891	95.03	69.15	72.62	98.36
W4A8KV16	BATQuant	2386	893	95.55	70.20	73.14	99.29
W4A4KV16	RTN	2243	838	92.70	65.23	66.47	93.07
W4A4KV16	QuaRot	2189	810	93.47	64.97	57.62	89.69
W4A4KV16	SpinQuant	1994	801	91.79	65.36	60.23	88.32
W4A4KV16	BRQ	2147	805	92.94	66.14	62.14	90.74
W4A4KV16	FlatQuant	2231	873	94.10	65.62	68.86	94.79
W4A4KV16	SmoothQuant	2264	862	93.93	68.89	66.26	95.01
W4A4KV16	GPTQ	2286	849	93.98	66.93	67.29	94.64
W4A4KV16	BATQuant	2360	864	94.31	67.32	69.70	96.43
W4A8KV8	RTN	2208	878	94.64	69.54	71.01	96.51
W4A8KV8	QuaRot	2296	868	95.11	69.02	70.26	96.77
W4A8KV8	SpinQuant	2217	832	94.41	68.10	69.04	94.58
W4A8KV8	BRQ	2283	867	94.63	69.80	67.36	95.98
W4A8KV8	FlatQuant	2353	888	95.12	69.14	72.77	98.41
W4A8KV8	SmoothQuant	2317	884	94.72	70.19	68.91	97.19
W4A8KV8	GPTQ	2340	885	95.14	71.11	71.79	98.53
W4A8KV8	BATQuant	2368	890	95.47	69.93	72.82	98.89
W4A8KV4	RTN	2220	856	94.05	68.50	67.50	94.76
W4A8KV4	QuaRot	2280	857	94.66	68.52	68.36	95.65
W4A8KV4	SpinQuant	2248	829	94.18	68.63	64.50	93.65
W4A8KV4	BRQ	2236	841	94.07	68.63	66.03	94.20
W4A8KV4	FlatQuant	2293	884	94.88	68.76	70.75	97.11
W4A8KV4	SmoothQuant	2283	871	94.39	67.02	66.99	95.13
W4A8KV4	GPTQ	2328	867	94.15	68.10	70.81	96.71
W4A8KV4	BATQuant	2332	885	95.07	68.63	70.92	97.51

BATQuant は W4A8KV16 でほぼ不可逆性に近い性能を達成し、評価済みベンチマークで BF16 性能の最大 99% を回復。
W4A4KV16 の下で、BATQuant はマルチモーダルベンチマークで平均回復率 96.43% を達成し、FlatQuant を 1.64% 上回る。
BATQuant は W4A8KV16、W4A8KV8、W4A8KV4 の各設定で、MLLMs および LLMs、マルチモーダル・推論タスクを含む範囲で一貫してベースラインを上回る。
ブロック-wise アファイン変換はブロック間エネルギー移動を防止し、Hadamard/回転ベース手法で生じる双峰分布を軽減する。
GPK 分解は FlatQuant/Naive Kronecker に比べパラメータ数を 74%〜79% 超過削減しつつ、Kronecker 積のベクトル化による効率的推論を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。