Skip to main content
QUICK REVIEW

[论文解读] Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani, Geonhwa Jeong|arXiv (Cornell University)|Jan 30, 2026
Parallel Computing and Optimization Techniques被引用 0
一句话总结

论文提出 Overflow-Aware Scaling (OAS) 与 Macro Block Scaling (MBS) 这两种软件技术,弥合 MXFP4 在 LLM 推理中的精度差距与 NVFP4,达到接近 NVFP4 的保真度,但开销适中。

ABSTRACT

Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).

研究动机与目标

  • 确定 MXFP4 相对于 NVFP4 的主要精度差距来源。
  • 量化 MXFP4 的块大小与比例因子格式对保真度和硬件成本的权衡。
  • 提出仅软件的技术(OAS 与 MBS),在不改变硬件的前提下提升 MXFP4 的保真度。
  • 在多种大型语言模型和基准上展示端到端的准确性提升。
  • 评估所提方法对 GEMM 的计算开销及其实用性。

提出的方法

  • 利用张量级和后操作级别的 QSNR 分析表示保真度。
  • 在块大小(32 与 16)及比例因子格式(E8M0 与 E4M3)方面对比 MXFP4 与 NVFP4。
  • 提出 Overflow-Aware Scaling (OAS) 将 alpha_max 映射到一个扩展的可表示范围。
  • 引入 Macro Block Scaling (MBS),在 1x128 宏块粒度下分配更高精度的比例缩放。
  • 将 MBS 作为一种软件优化实现,利用现有的 CUDA/CUTLASS 基 GEMM 流程。
  • 提供 MBS 的静态与动态变体,端到端评估采用混合配置(MBS-H)作为默认。

实验结果

研究问题

  • RQ1MXFP4 相对于 NVFP4 的保真度差距的主要成因是什么?
  • RQ2块大小与比例因子格式如何影响量化误差与硬件成本?
  • RQ3仅软件技术(OAS 与 MBS)是否能够在不修改硬件的情况下弥合性能差距?
  • RQ4应用 OAS 与 MBS 后,在常见的 LLM 基准上的端到端影响如何?
  • RQ5所提方法对 GEMM 吞吐量的量化开销是多少?

主要发现

  • OAS 与 MBS 大幅缩小 MXFP4 与 NVFP4 的保真度差距,平均达到接近 NVFP4 的保真度(约 1 dB QSNR 范围内)。
  • 端到端下游准确性在 Llama 3.1-8B-Instruct 与 Qwen3-8B 基准上平均提升至接近 1% 的水平。
  • 在 MBS-H(混合)下,平均下游准确性在所评估模型上接近 NVFP4(如 Llama 3.1-8B-Instruct 与 Qwen3-8B)。
  • MXFP4-MBS-H 的 GEMM 开销平均约 6.2%,显著低于此前方法(如 MX+,开销高达 54%)。
  • MBS 能在保留 1x16 计算粒度的同时,通过 1x128 宏块缩放来隔离异常值,从而在不改变硬件的前提下实现保真度提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。