Skip to main content
QUICK REVIEW

[논문 리뷰] Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani, Geonhwa Jeong|arXiv (Cornell University)|2026. 01. 30.
Parallel Computing and Optimization Techniques인용 수 0
한 줄 요약

논문은 Overflow-Aware Scaling(OAS)과 Macro Block Scaling(MBS)을 소개합니다. 이는 LLM 추론에서 MXFP4의 정확도 격차를 NVFP4와의 차이로 좁히고, 비교적 적은 오버헤드로 거의 NVFP4 수준의 충실도를 달성하는 소프트웨어 기술입니다.

ABSTRACT

Large Language Models (LLMs) have intensified the need for low-precision formats that enable efficient, large-scale inference. The Open Compute Project (OCP) Microscaling (MX) standard is attractive due to its favorable hardware efficiency, but its 4-bit variant (MXFP4) lags behind NVIDIA's NVFP4 in accuracy, limiting adoption. We introduce two software-only techniques, Overflow-Aware Scaling (OAS) and Macro Block Scaling (MBS), that improve MXFP4 quantization fidelity without requiring hardware changes. OAS reduces overall errors by increasing effective dynamic range under power-of-two block scaling, while MBS allocates higher-precision scaling at a coarser granularity to better preserve outliers. Across multiple LLMs and standard downstream benchmarks, OAS and MBS reduce the end-to-end accuracy gap between MXFP4 and NVFP4 from about 10% to below 1% on average, while incurring modest GEMM overhead (6.2% on average). These results re-establish MXFP4 as a practical alternative to NVFP4, enabling near-NVFP4 accuracy while retaining MX's hardware-efficiency advantages (e.g., 12% relative area savings in tensor cores).

연구 동기 및 목표

  • MXFP4의 NVFP4 대비 정확도 격차의 주된 원인을 식별한다.
  • MXFP4 블록 크기와 스케일 팩터 형식의 충실도와 하드웨어 비용의 trade-off를 정량화한다.
  • 하드웨어 변경 없이 정확도 향상을 위한 소프트웨어 전용 기술(OAS 및 MBS)을 제안한다.
  • 여러 LLM 및 벤치마크에서 엔드 투 엔드 정확도 향상을 입증한다.
  • 제안 방법의 계산 오버헤드와 실용성을 평가한다.

제안 방법

  • 텐서 및 연산 후 레벨에서 QSNR을 이용한 표현 재현성 분석.
  • 블록 크기(32 대 16) 및 스케일 팩터 형식(E8M0 대 E4M3) 측면에서 MXFP4와 NVFP4를 비교.
  • alpha_max를 확장 가능한 표현 범위로 매핑하는 Overflow-Aware Scaling(OAS)을 제안한다.
  • 1x128 매크로 블록 단위의 고정밀 스케일링을 할당하는 Macro Block Scaling(MBS)을 도입한다.
  • GEMM 파이프라인에서 기존 CUDA/CUTLASS 기반으로 작동하는 소프트웨어 최적화로 MBS를 구현한다.
  • 엔드 투 엔드 평가를 위한 기본 구성으로 MBS-H(하이브리드)와 함께 정적 및 동적 변형을 제공한다.

실험 결과

연구 질문

  • RQ1MXFP4의 NVFP4 대비 정확도 격차의 주된 원인은 무엇인가?
  • RQ2블록 크기와 스케일 팩터 형식이 양자화 오차와 하드웨어 비용에 어떻게 기여하는가?
  • RQ3소프트웨어 전용 기술(OAS와 MBS)이 하드웨어 변경 없이 성능 차이를 줄일 수 있는가?
  • RQ4OAS와 MBS를 적용했을 때 일반적인 LLM 벤치마크에서의 엔드 투 엔드 영향은 어떠한가?
  • RQ5제안된 방법의 GEMM 처리량에 대한 정량적 오버헤드는 어느 정도인가?

주요 결과

  • OAS와 MBS가 MXFP4의 정확도 격차를 NVFP4에 상당히 가깝게 줄여 평균적으로 1 dB QSNR 이내의 충실도를 달성합니다.
  • Llama 3.1-8B-Instruct 및 Qwen3-8B 벤치마크에서 엔드 투 엔드 다운스트림 정확도가 평균 1% 이내로 향상됩니다.
  • MBS-H(하이브리드)를 사용하면 평가된 모델 전반에 걸쳐 평균 다운스트림 정확도가 NVFP4에 근접합니다(예: Llama 3.1-8B-Instruct 및 Qwen3-8B).
  • MXFP4-MBS-H의 GEMM 오버헤드는 평균 약 6.2%로, 이전 접근법(e.g., MX+로 최대 54% 오버헤드)보다 현저히 낮습니다.
  • MBS는 1x128 매크로 블록 스케일링으로 이상치를 효과적으로 분리하면서도 1x16 계산 그리드를 유지하여 하드웨어 변경 없이 충실도 향상을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.