QUICK REVIEW

[論文レビュー] Microscaling Data Formats for Deep Learning

Bita Darvish Rouhani, Ritchie Zhao|arXiv (Cornell University)|Oct 16, 2023

Ferroelectric and Negative Capacitance Devices被引用数 8

ひとこと要約

要約: 本論文は Microscaling (MX) データ形式を評価し、ブロックごとに共有スケールを持ち、狭い要素タイプを組み合わせることで、MXを推論とトレーニングのためのFP32のドロップイン置換として示し、大規模トランスフォーマーのサブ8ビット学習を最小限の精度低下とトレーニングレシピ変更なしで実現する。

ABSTRACT

Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.

研究の動機と目的

深層学習における計算資源とストレージコストの削減を低ビット幅データ形式の活用で動機付ける。
ブロックごとのスケールと狭い要素形式を組み合わせた MX データ形式を提案・評価する。
推論とトレーニングの両方で、生成的言語モデルを含む多様なベンチマークに対して MX 形式を評価する。

提案手法

MXブロックを共有スケール X と k 個の要素値 P_i で定義する。
MXFP8、MXFP6、MXFP4、MXINT8 の具体的な MX フォーマットを、E8M0 スケールと FP8/FP6/FP4/INT8 要素を用いて記述する。
ベクトル V とブロック抽出のスカラー FP から MX 形式への変換手順（アルゴリズム1）を提供する。
GPU上で MX をエミュレートするカスタム CUDA ベースの PyTorch 拡張を用い、4 つの計算フローを実行する: 直接キャスト推論、誤差拡散推論、微調整済み推論、トレーニング。
MXを識別的・生成的タスクに対して評価し、直接キャスト、微調整済み、PTQ、ゼロからの大規模モデル学習を含む。
MXFP6_e3m2 および MXFP4 重みを用いたサブ8ビット精度での生成言語モデル学習を混合精度設定で実証する。

実験結果

リサーチクエスチョン

RQ1MX フォーマットは FP32 に対して最小限の精度損失でハードウェア効率が高く、デプロイが容易な推論を提供できるか。
RQ2サブ8ビット MX フォーマットは、トレーニングレシピを変更せずに大規模トランスフォーマーモデルの学習に適用可能か。
RQ3MXINT8、MXFP6、MXFP8、MXFP4 を用いた場合の精度と計算のトレードオフは、タスクとモデル間でどうなるか。
RQ4サブ8ビット領域におけるper-block スケーリングは、per-tensor スケーリングと比較して量子化挙動と精度にどう影響するか。
RQ5単一の MX ライブラリで、推論とトレーニングの両方の再現性をアーキテクチャを超えて確保できるか。

主な発見

MXINT8 は、推論の直接キャストにおいて FP32 の代替として魅力的で、精度損失が最小限。
MXFP6 は、微調整済み推論においてタスク間で FP32 にほぼ近い性能を達成可能。
MXFP6 は、トレーニングレシピを変更せずに、サブ8ビットの重み・活性化・勾配を用いた大規模トランスフォーマーの学習を可能にする。
MXFP4 重みと MXFP6 活性化/勾配を用いたトレーニングは、生成言語モデルにおいてわずかな精度ペナルティで実現可能。
サブ8ビット精度の生成モデル学習は、MXFP6_e3m2 を用いて FP32 との整合性を保ちつつ、いくつかのモデルサイズ（20M–1.5B）で実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。