Skip to main content
QUICK REVIEW

[論文レビュー] BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Ji-Fu Li, Manyi Zhang|arXiv (Cornell University)|Mar 17, 2026
Numerical Methods and Algorithms被引用数 0
ひとこと要約

BATQuant は Global と Private Kronecker 分解とブロックごとの切り捨てを備えたブロック単位のアファイン変換を導入し、MXFP4 を量子化して、MLLMs/LLMs の性能低下を最小限に抑えつつ、従来の PTQ 手法より優れる。特に過激な低ビット設定で顕著な改善を示す。

ABSTRACT

Microscaling floating-point (MXFP) formats have emerged as a promising standard for deploying Multi-modal Large Language Models (MLLMs) and Large Language Models (LLMs) on modern accelerator architectures. However, existing Post-Training Quantization (PTQ) methods, particularly rotation-based techniques designed for integer formats, suffer from severe performance collapse when applied to MXFP4. Recent studies attribute this failure to a fundamental format mismatch: global orthogonal rotations inadvertently transfer outlier energy across quantization blocks, inducing new outliers that disrupt local block-wise scaling, while often creating bimodal activation distributions that underutilize the limited quantization range. To address these issues, we propose BATQuant (Block-wise Affine Transformation), which restricts transformations to align with MXFP granularity to prevent cross-block outlier propagation, while relaxing orthogonality constraints to optimize distribution shaping. To ensure parameter efficiency, we introduce Global and Private Kronecker (GPK) decomposition to effectively reduces storage and runtime overhead and incorporate Block-wise Learnable Clipping to suppress residual outliers. Extensive experiments on both MLLMs and LLMs demonstrate that BATQuant establishes new state-of-the-art results under aggressive W4A4KV16 configurations, recovering up to 96.43% of full-precision performance on multimodal benchmarks and clearly outperforming existing methods across diverse tasks.

研究の動機と目的

  • グローバル回転がブロック間のアウトライヤ移動と双極分布の影響で破綻する場合に備え、MLLMs/LLMs 向けの堅牢な 4-bit MXFP 量子化を動機づける。
  • ブロック整列アファイン変換を開発し、ブロック間エネルギー移動を防ぎつつ分布整形を学習する。
  • Global and Private Kronecker (GPK) 分解を導入してパラメータと実行時オーバーヘッドを削減し、 residual アウトライヤを抑制するブロック単位の学習可能クリッピングを追加する。
  • 悪条件の MXFP 設定の下で多様なモダリティと言語タスクにおける BATQuant の有効性を示す。

提案手法

  • MXFP の粒度に合わせてブロック対角行列 P を用い、MXFP グラニュラリティ(例: 32)にブロックを整列させてアウトライヤ移動を制限するブロック-wise アファイン変換(BAT)を導入する。
  • Global and Private Kronecker (GPK) 分解を適用:P_i = B_i ⊗ A、A はグローバルに共有、B_i はブロックごとにプライベートでパラメータを削減する。
  • 局所統計に適応するためのブロック-wise 学習可能クリッピングを組み込み、ブロックごとのしきい値を学習させる。
  • カリブレーションセット上で層ごとの量子化誤差を最小化して学習可能パラメータを訓練する:Θ_l^* = argmin_Θ_l E_X∼D_cal [||F_l(X) − F̂_l(X; Θ_l)||_2^2]。
  • Transformer への BATQuant の統合:重み側オフライン融合と活性化側オンライン適用;特定のコンポーネントで BF16 を使用し、低ビットの GEMM を適用。
  • ブロックサイズ g=32 の MXFP 量子化を採用し、P ブロックサイズを g に合わせて局所的な分布整形を正確に行う。

実験結果

リサーチクエスチョン

  • RQ1BATQuant は MXFP4 の過激な設定 W4A4KV16 などで既存手法が劣化する状況でも高精度を維持できるか。
  • RQ2ブロック-wise アファイン変換と GPK クリッピングは MLLMs/LLMs、そしてマルチモーダルおよび言語タスク全体に一般化するか。
  • RQ3ブロックサイズの整列、GPK 配置、クリッピングが量子化性能とパラメータ効率に及ぼす影響はどうなるか。

主な発見

BitsMethodMMEOCRBenchDocVQARealWorldQAVLMBlindRecovery(%)
W4A8KV16RTN229488394.7269.8070.9997.43
W4A8KV16QuaRot232787095.0769.8071.1297.53
W4A8KV16SpinQuant232187294.7970.4669.8297.29
W4A8KV16BRQ232986594.7270.1967.1896.40
W4A8KV16FlatQuant235188695.3169.0273.9098.66
W4A8KV16SmoothQuant234988594.8170.0669.4697.61
W4A8KV16GPTQ234689195.0369.1572.6298.36
W4A8KV16BATQuant238689395.5570.2073.1499.29
W4A4KV16RTN224383892.7065.2366.4793.07
W4A4KV16QuaRot218981093.4764.9757.6289.69
W4A4KV16SpinQuant199480191.7965.3660.2388.32
W4A4KV16BRQ214780592.9466.1462.1490.74
W4A4KV16FlatQuant223187394.1065.6268.8694.79
W4A4KV16SmoothQuant226486293.9368.8966.2695.01
W4A4KV16GPTQ228684993.9866.9367.2994.64
W4A4KV16BATQuant236086494.3167.3269.7096.43
W4A8KV8RTN220887894.6469.5471.0196.51
W4A8KV8QuaRot229686895.1169.0270.2696.77
W4A8KV8SpinQuant221783294.4168.1069.0494.58
W4A8KV8BRQ228386794.6369.8067.3695.98
W4A8KV8FlatQuant235388895.1269.1472.7798.41
W4A8KV8SmoothQuant231788494.7270.1968.9197.19
W4A8KV8GPTQ234088595.1471.1171.7998.53
W4A8KV8BATQuant236889095.4769.9372.8298.89
W4A8KV4RTN222085694.0568.5067.5094.76
W4A8KV4QuaRot228085794.6668.5268.3695.65
W4A8KV4SpinQuant224882994.1868.6364.5093.65
W4A8KV4BRQ223684194.0768.6366.0394.20
W4A8KV4FlatQuant229388494.8868.7670.7597.11
W4A8KV4SmoothQuant228387194.3967.0266.9995.13
W4A8KV4GPTQ232886794.1568.1070.8196.71
W4A8KV4BATQuant233288595.0768.6370.9297.51
  • BATQuant は W4A8KV16 でほぼ不可逆性に近い性能を達成し、評価済みベンチマークで BF16 性能の最大 99% を回復。
  • W4A4KV16 の下で、BATQuant は マルチモーダルベンチマークで平均回復率 96.43% を達成し、FlatQuant を 1.64% 上回る。
  • BATQuant は W4A8KV16、W4A8KV8、W4A8KV4 の各設定で、MLLMs および LLMs、マルチモーダル・推論タスクを含む範囲で一貫してベースラインを上回る。
  • ブロック-wise アファイン変換はブロック間エネルギー移動を防止し、Hadamard/回転ベース手法で生じる双峰分布を軽減する。
  • GPK 分解は FlatQuant/Naive Kronecker に比べパラメータ数を 74%〜79% 超過削減しつつ、Kronecker 積のベクトル化による効率的推論を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。