[论文解读] Microscaling Data Formats for Deep Learning
该论文评估 Microscaling (MX) 数据格式,这些格式将每个区块的共享尺度与窄元素类型配对,证明 MX 可作为推理和训练的 FP32 即插即用替代方案,包括对大型变换模型的子 8-bit 训练,几乎无精度损失且无训练配方更改。
Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
研究动机与目标
- 通过使用低位宽数据格式,推动降低深度学习中的计算和存储成本。
- 提出并评估将每区块缩放与窄元素格式结合的 MX 数据格式。
- 在多样化基准测试中评估 MX 格式在推理和训练中的表现,包括生成式语言模型。
提出的方法
- 用共享尺度 X 和 k 个元素值 P_i 定义 MX 区块。
- 描述具体的 MX 格式(MXFP8、MXFP6、MXFP4、MXINT8),使用 E8M0 尺度和 FP8/FP6/FP4/INT8 元素。
- 提供一个标量 FP 到 MX 格式的转换过程(算法 1)用于向量 V 和区块提取。
- 使用基于 CUDA 的自定义 PyTorch 扩展在 GPU 上模拟 MX,并运行四种计算流程:直接转换推理、误差扩散推理、微调推理和训练。
- 在判别和生成任务上评估 MX 的表现,包括直接转换、微调、后量化(PTQ)和从头训练在大型模型上的表现。
- 在混合精度设置中展示以 MXFP6_e3m2 和 MXFP4 权重进行子 8 位精度的生成式语言模型训练。
实验结果
研究问题
- RQ1与 FP32 相比,MX 格式是否能够以高硬件效率、低摩擦的方式部署推理且精度损失极小?
- RQ2对于大型变换模型,是否可以在不改变训练配方的情况下实现子 8 位 MX 格式的训练?
- RQ3在使用 MXINT8、MXFP6、MXFP8、MXFP4 在不同任务和模型中的精度与计算折衷是什么?
- RQ4每区块缩放对量化行为和相对于按张量缩放在子 8 位区间的精度有何影响?
- RQ5是否存在单一的 MX 库能够在不同体系结构上实现推理和训练的可复现结果?
主要发现
- MXINT8 在直接转换推理中可作为 FP32 的有力替代,且精度损失很小。
- MXFP6 在微调推理方面可以接近 FP32 的表现,覆盖多任务。
- MXFP6 使得大型变换模型在子 8 位权重、激活和梯度下进行训练,而不需要修改训练配方。
- 使用 MXFP4 权重和 MXFP6 激活/梯度进行训练对于生成式语言模型是可行的,只有轻微的精度损失。
- 使用 MXFP6_e3m2 的多种模型规模(20M–1.5B)实现子 8 位精度的生成模型训练,与 FP32 保持对等。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。