QUICK REVIEW

[논문 리뷰] Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks

Léopold Cambier, Anahita Bhiwandiwalla|arXiv (Cornell University)|2020. 01. 16.

Model Reduction and Neural Networks참고 문헌 24인용 수 24

한 줄 요약

이 논문은 손실 스케일링, 확률적 반올림 또는 첫 번째/마지막 레이어를 높은 정밀도로 유지할 필요 없이, 즉각적인 훈련이 가능한 새로운 FP8 형식인 Shifted and Squeezed 8-bit Floating Point (S2FP8)을 제안한다. 양자화 이전에 텐서 범위를 동적으로 재스케일링하는 학습 가능한 이동(β) 및 압축(α) 인자를 도입함으로써, S2FP8는 하이퍼파라미터 조정 없이도 ResNet-50, Transformer 및 NCF 모델에서 FP32 수준의 정확도를 유지한다.

ABSTRACT

Training with larger number of parameters while keeping fast iterations is an increasingly adopted strategy and trend for developing better performing Deep Neural Network (DNN) models. This necessitates increased memory footprint and computational requirements for training. Here we introduce a novel methodology for training deep neural networks using 8-bit floating point (FP8) numbers. Reduced bit precision allows for a larger effective memory and increased computational speed. We name this method Shifted and Squeezed FP8 (S2FP8). We show that, unlike previous 8-bit precision training methods, the proposed method works out-of-the-box for representative models: ResNet-50, Transformer and NCF. The method can maintain model accuracy without requiring fine-tuning loss scaling parameters or keeping certain layers in single precision. We introduce two learnable statistics of the DNN tensors - shifted and squeezed factors that are used to optimally adjust the range of the tensors in 8-bits, thus minimizing the loss in information due to quantization.

연구 동기 및 목표

깊은 신경망을 8비트 정밀도로 훈련할 때 광범위한 하이퍼파라미터 조정이나 하드웨어에 특화된 반올림 기법을 요구하지 않는 문제를 해결하기 위해.
손실 스케일링, 확률적 반올림, 또는 첫 번째 및 마지막 레이어를 FP32로 유지하는 것의 필요성을 제거하여, 이전의 8비트 훈련 방법에서 일반적으로 요구되는 조건을 없애기 위해.
다양한 아키텍처(예: ResNet-50, Transformer, NCF)에서 정확도를 유지하면서도 하드웨어에 친화적이고 일반화 가능한 8비트 훈련 방법을 개발하기 위해.
비트 폭을 줄여 더 빠르고 메모리 효율적인 훈련을 가능하게 하되, 모델 성능을 유지하기 위해.

제안 방법

저밀도 훈련에 최적화된 5개의 지수 비트와 2개의 가수 비트를 가진 새로운 8비트 부동소수점 형식인 S2FP8을 도입한다.
양자화 이전에 텐서 범위를 재스케일링하기 위해 학습 가능한 통계량인 이동(β)과 압축(α)을 활용하여 정보 손실을 최소화한다.
FP32 텐서의 지수와 가수에 각각 이동 및 압축 연산을 적용하여 8비트 표현으로의 절단 이전에 처리한다.
간단한 지수 덧셈/뺄셈을 통한 이동 연산과 가수 스케일링을 통한 압축 연산을 활용하여 효율적인 하드웨어 매핑을 가능하게 한다.
행렬 곱셈기 내부에서 마스터 가중치와 누적값을 FP32로 저장하여 훈련 중 수치 안정성을 유지한다.
역전파된 기울기를 통해 각 레이어마다 텐서 통계량을 동적으로 조정함으로써 엔드 투 엔드 8비트 훈련을 가능하게 한다.

실험 결과

연구 질문

RQ1손실 스케일링이나 레이어별 정밀도 제한 없이 8비트 부동소수점 훈련을 완전히 즉각적인 방식으로 구현할 수 있는가?
RQ2확률적 반올림이나 청크 기반 누적에 의존하지 않고 8비트 훈련에서 텐서 범위 적응을 어떻게 달성할 수 있는가?
RQ3학습 가능한 이동 및 압축 인자가 저밀도 훈련에서 수동 하이퍼파라미터 조정을 효과적으로 대체할 수 있는가?
RQ4S2FP8은 아키텍처 수정 없이도 ResNet-50, Transformer 및 NCF와 같은 다양한 DNN 아키텍처에서 FP32 수준의 정확도를 유지하는가?
RQ5동일한 훈련 조건 하에서 S2FP8은 기존의 FP8 방법과 비교해 수렴성과 정확도 측면에서 어떻게 성능을 내는가?

주요 결과

S2FP8는 하이퍼파라미터 조정 없이도 ResNet-50 이미지 분류에서 FP32 수준의 정확도를 달성하며, 지수 손실 스케일링이 적용된 FP8보다 뛰어난 성능을 보였다.
영어-베트남어 번역 작업에서 S2FP8는 BLEU 점수 25.3을 기록하여 FP32 기준과 동일했고, 손실 스케일링이 적용된 FP8는 단지 21.3에 머물렀다.
NCF 추천 모델의 경우 S2FP8는 히트 비율 0.663을 달성하여 FP32 기준인 0.666과 매우 유사했고, RNE가 적용된 FP8는 0.633으로 떨어졌다.
이전의 방법들이 수렴을 위해 첫 번째 및 마지막 레이어를 FP32로 유지해야 했던 것과 달리, S2FP8는 이러한 제약 조건이 필요 없음을 입증했다.
이 방법은 시각, NLP, 추천 시스템 등 다양한 모델에서 뛰어난 일반화 능력을 보이며, 아키텍처나 훈련 방식의 수정 없이도 안정적인 성능을 유지한다.
하드웨어 평가 결과, 이동 및 압축 연산은 지수와 가수에 대한 단순 산술 연산으로 효율적으로 구현 가능하며, 성능이나 처리량에 지장을 주지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.