QUICK REVIEW

[論文レビュー] Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani, Geonhwa Jeong|arXiv (Cornell University)|Jan 30, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

論文は Overflow-Aware Scaling (OAS) と Macro Block Scaling (MBS) を導入し、LLM推論における MXFP4 の NVFP4 に対する精度ギャップを縮め、過少なオーバーヘッドでほぼ NVFP4 相当の忠実度を達成する。

ABSTRACT

Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).

研究の動機と目的

MXFP4 の NVFP4 に対する主な精度ギャップの出所を特定する。
MXFP4 ブロックサイズとスケールファクター形式の忠実度とハードウェアコストのトレードオフを定量化する。
ハードウェア変更なしのソフトウェアのみの技術（OAS および MBS）を提案し、MXFP4 の忠実度を改善する。
複数の LLM およびベンチマークでエンドツーエンドの精度向上を実証する。
提案手法の計算オーバーヘッドと実用性を評価する。

提案手法

テンソルレベルおよびポスト演算レベルでの QSNR を用いた表現忠実度の分析。
MXFP4 と NVFP4 をブロックサイズ（32 対 16）とスケールファクター形式（E8M0 対 E4M3）で比較。
Overflow-Aware Scaling (OAS) を提案し、alpha_max を拡張可能な表現範囲へ写像。
Macro Block Scaling (MBS) を導入し、1x128 のマクロブロック粒度で高精度スケーリングを割り当てる。
MBS を CUDA/CUTLASS ベースの GEMM パイプラインを活用するソフトウェア最適化として実装。
静的および動的バリアントの MBS を提供し、エンドツーエンド評価用のハイブリッド設定（MBS-H）をデフォルトとする。

実験結果

リサーチクエスチョン

RQ1MXFP4 の NVFP4 との忠実度ギャップの主な原因は何か？
RQ2ブロックサイズとスケールファクター形式が量子化誤差とハードウェアコストにどう寄与するか？
RQ3ソフトウェアのみの技術（OAS および MBS）はハードウェア変更なしで性能ギャップを埋められるか？
RQ4OAS および MBS を適用した場合、一般的な LLM ベンチマークにおけるエンドツーエンドの影響は？
RQ5提案手法の GEMM スループットに対する定量化されたオーバーヘッドはどの程度か？

主な発見

OAS と MBS は MXFP4 の NVFP4 への精度ギャップを大幅に縮小し、平均でほぼ NVFP4 相当の忠実度を達成（平均で 1 dB QSNR 未満）。
エンドツーエンドの下流精度は、Llama 3.1-8B-Instruct および Qwen3-8B のベンチマークで平均して 1% 未満まで改善。
MBS-H（ハイブリッド）を適用すると、評価対象モデル全体で下流精度が NVFP4 に近づく（例：Llama 3.1-8B-Instruct および Qwen3-8B）。
MXFP4-MBS-H の GEMM オーバーヘッドは平均で約 6.2%、以前のアプローチ（例：MX+ で最大 54% のオーバーヘッド）に比べて大幅に低い。
MBS は 1x128 マクロブロックスケーリングで外れ値を効果的に分離しつつ 1x16 の計算粒度を保持し、ハードウェア変更なしで忠実度向上を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。