[논문 리뷰] Microscaling Data Formats for Deep Learning
요지는: 이 논문은 각 블록당 공유 스케일과 좁은 요소 타입을 쌍으로 하는 Microscaling(MX) 데이터 형식을 평가하여 MX를 추론(inference) 및 학습에 대한 드롭인 FP32 대체제로 제시하며, 손실 거의 없이 대형 트랜스포머의 8비트 미만(sub-8-bit) 학습이 가능하고 학습 레시피를 변경하지 않아도 됨을 보인다.
Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
연구 동기 및 목표
- 딥러닝에서 저비트폭 데이터 포맷을 사용해 계산 및 저장 비용을 줄이는 것을 동기화합니다.
- 블록당 스케일과 좁은 요소 포맷을 결합하는 MX 데이터 포맷을 제안하고 평가합니다.
- 다양한 벤치마크에서 MX 포맷의 추론과 학습 성능을 평가합니다(생성적 언어 모델 포함).
제안 방법
- 공유 스케일 X와 k 개의 요소 값 P_i를 갖는 MX 블록을 정의합니다.
- E8M0 스케일과 FP8/FP6/FP4/INT8 요소를 사용하는 구체적 MX 포맷(MXFP8, MXFP6, MXFP4, MXINT8)을 설명합니다.
- 벡터 V와 블록 추출을 위한 스칼라 FP를 MX 포맷으로 변환하는 절차(알고리즘 1)를 제공합니다.
- GPU에서 MX를 에뮬레이션하기 위해 커스텀 CUDA 기반 PyTorch 확장을 사용하고 네 가지 컴퓨트 흐름을 실행합니다: Direct-cast Inference, Error Diffusion Inference, Finetuned Inference, Training.
- 직접-캐스트, 미세 조정, PTQ 및 대형 모델의 학습을 포함하여 다양한 태스크에 대해 추론 및 학습에서 MX를 평가합니다.
- MXFP6_e3m2 및 MXFP4 가중치를 혼합 정밀도 설정에서 사용하여 서브-8비트 정밀도로 생성적 언어 모델 학습을 시연합니다.
실험 결과
연구 질문
- RQ1MX 포맷이 FP32 대비 정확도 손실을 최소화하면서 하드웨어 친화적이고 마찰이 적은 배치를 제공하는가?
- RQ2서브-8비트 MX 포맷이 학습 레시피를 바꾸지 않고 대형 트랜스포머 모델의 학습에 적합한가?
- RQ3다양한 태스크와 모델에서 MXINT8, MXFP6, MXFP8, MXFP4를 사용할 때 정확도 및 계산상의 트레이드오프는 무엇인가?
- RQ4블록당 스케일링이 서브-8비트 영역에서 텐서당 스케일링에 비해 양자화 동작 및 정확도에 어떤 영향을 미치는가?
- RQ5하나의 MX 라이브러리가 아키텍처 간 추론과 학습에서 재현 가능한 결과를 제공할 수 있는가?
주요 결과
- MXINT8은 직접 캐스트 추론에서 FP32의 강력한 대체제로 작동하여 정확도 손실이 최소화됩니다.
- MXFP6는 태스크 전반에 걸친 미세 조정 추론에서 FP32에 근접한 성능을 달성할 수 있습니다.
- MXFP6는 학습 레시피를 변경하지 않고도 대형 트랜스포머를 서브-8비트 가중치, 활성화 및 기울기로 학습 가능하게 합니다.
- MXFP4 가중치와 MXFP6 활성화/기울기로 학습하는 것은 생성적 언어 모델에서도 약간의 정확도 손실만으로 가능합니다.
- 여러 모델 규모(20M–1.5B)에 대해 MXFP6_e3m2를 사용한 서브-8비트 정밀도에서 FP32와의 등가성을 갖는 생성 모델 학습이 시연됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.