QUICK REVIEW

[论文解读] Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani, Geonhwa Jeong|arXiv (Cornell University)|Jan 30, 2026

Parallel Computing and Optimization Techniques被引用 0

一句话总结

论文提出 Overflow-Aware Scaling (OAS) 与 Macro Block Scaling (MBS) 这两种软件技术，弥合 MXFP4 在 LLM 推理中的精度差距与 NVFP4，达到接近 NVFP4 的保真度，但开销适中。

ABSTRACT

Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).

研究动机与目标

确定 MXFP4 相对于 NVFP4 的主要精度差距来源。
量化 MXFP4 的块大小与比例因子格式对保真度和硬件成本的权衡。
提出仅软件的技术（OAS 与 MBS），在不改变硬件的前提下提升 MXFP4 的保真度。
在多种大型语言模型和基准上展示端到端的准确性提升。
评估所提方法对 GEMM 的计算开销及其实用性。

提出的方法

利用张量级和后操作级别的 QSNR 分析表示保真度。
在块大小（32 与 16）及比例因子格式（E8M0 与 E4M3）方面对比 MXFP4 与 NVFP4。
提出 Overflow-Aware Scaling (OAS) 将 alpha_max 映射到一个扩展的可表示范围。
引入 Macro Block Scaling (MBS)，在 1x128 宏块粒度下分配更高精度的比例缩放。
将 MBS 作为一种软件优化实现，利用现有的 CUDA/CUTLASS 基 GEMM 流程。
提供 MBS 的静态与动态变体，端到端评估采用混合配置（MBS-H）作为默认。

实验结果

研究问题

RQ1MXFP4 相对于 NVFP4 的保真度差距的主要成因是什么？
RQ2块大小与比例因子格式如何影响量化误差与硬件成本？
RQ3仅软件技术（OAS 与 MBS）是否能够在不修改硬件的情况下弥合性能差距？
RQ4应用 OAS 与 MBS 后，在常见的 LLM 基准上的端到端影响如何？
RQ5所提方法对 GEMM 吞吐量的量化开销是多少？

主要发现

OAS 与 MBS 大幅缩小 MXFP4 与 NVFP4 的保真度差距，平均达到接近 NVFP4 的保真度（约 1 dB QSNR 范围内）。
端到端下游准确性在 Llama 3.1-8B-Instruct 与 Qwen3-8B 基准上平均提升至接近 1% 的水平。
在 MBS-H（混合）下，平均下游准确性在所评估模型上接近 NVFP4（如 Llama 3.1-8B-Instruct 与 Qwen3-8B）。
MXFP4-MBS-H 的 GEMM 开销平均约 6.2%，显著低于此前方法（如 MX+，开销高达 54%）。
MBS 能在保留 1x16 计算粒度的同时，通过 1x128 宏块缩放来隔离异常值，从而在不改变硬件的前提下实现保真度提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。