Skip to main content
QUICK REVIEW

[論文レビュー] Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani, Geonhwa Jeong|arXiv (Cornell University)|Jan 30, 2026
Parallel Computing and Optimization Techniques被引用数 0
ひとこと要約

論文は Overflow-Aware Scaling (OAS) と Macro Block Scaling (MBS) を導入し、LLM推論における MXFP4 の NVFP4 に対する精度ギャップを縮め、過少なオーバーヘッドでほぼ NVFP4 相当の忠実度を達成する。

ABSTRACT

Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).

研究の動機と目的

  • MXFP4 の NVFP4 に対する主な精度ギャップの出所を特定する。
  • MXFP4 ブロックサイズとスケールファクター形式の忠実度とハードウェアコストのトレードオフを定量化する。
  • ハードウェア変更なしのソフトウェアのみの技術(OAS および MBS)を提案し、MXFP4 の忠実度を改善する。
  • 複数の LLM およびベンチマークでエンドツーエンドの精度向上を実証する。
  • 提案手法の計算オーバーヘッドと実用性を評価する。

提案手法

  • テンソルレベルおよびポスト演算レベルでの QSNR を用いた表現忠実度の分析。
  • MXFP4 と NVFP4 をブロックサイズ(32 対 16)とスケールファクター形式(E8M0 対 E4M3)で比較。
  • Overflow-Aware Scaling (OAS) を提案し、alpha_max を拡張可能な表現範囲へ写像。
  • Macro Block Scaling (MBS) を導入し、1x128 のマクロブロック粒度で高精度スケーリングを割り当てる。
  • MBS を CUDA/CUTLASS ベースの GEMM パイプラインを活用するソフトウェア最適化として実装。
  • 静的および動的バリアントの MBS を提供し、エンドツーエンド評価用のハイブリッド設定(MBS-H)をデフォルトとする。

実験結果

リサーチクエスチョン

  • RQ1MXFP4 の NVFP4 との忠実度ギャップの主な原因は何か?
  • RQ2ブロックサイズとスケールファクター形式が量子化誤差とハードウェアコストにどう寄与するか?
  • RQ3ソフトウェアのみの技術(OAS および MBS)はハードウェア変更なしで性能ギャップを埋められるか?
  • RQ4OAS および MBS を適用した場合、一般的な LLM ベンチマークにおけるエンドツーエンドの影響は?
  • RQ5提案手法の GEMM スループットに対する定量化されたオーバーヘッドはどの程度か?

主な発見

  • OAS と MBS は MXFP4 の NVFP4 への精度ギャップを大幅に縮小し、平均でほぼ NVFP4 相当の忠実度を達成(平均で 1 dB QSNR 未満) 。
  • エンドツーエンドの下流精度は、Llama 3.1-8B-Instruct および Qwen3-8B のベンチマークで平均して 1% 未満まで改善。
  • MBS-H(ハイブリッド)を適用すると、評価対象モデル全体で下流精度が NVFP4 に近づく(例:Llama 3.1-8B-Instruct および Qwen3-8B)。
  • MXFP4-MBS-H の GEMM オーバーヘッドは平均で約 6.2%、以前のアプローチ(例:MX+ で最大 54% のオーバーヘッド)に比べて大幅に低い。
  • MBS は 1x128 マクロブロックスケーリングで外れ値を効果的に分離しつつ 1x16 の計算粒度を保持し、ハードウェア変更なしで忠実度向上を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。