Skip to main content
QUICK REVIEW

[논문 리뷰] LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models

Gunho Park, Baeseong Park|arXiv (Cornell University)|2022. 06. 20.
Ferroelectric and Negative Capacitance Devices인용 수 20
한 줄 요약

LUT-GEMM은 바이어스가 있는 확장 BCQ를 통한 가중치 전용 양자화(균일 또는 비균일)와 완전 정밀도 활성화를 지원하는 LUT 기반 행렬곱 커널을 도입하여 지연 시간 감소를 크게 가능하게 하고 단일 GPU에서 OPT-175B를 거의 정밀도 손실 없이 실행할 수 있는 가능성을 제공합니다.

ABSTRACT

Recent advances in self-supervised learning and the Transformer architecture have significantly improved natural language processing (NLP), achieving remarkably low perplexity. However, the growing size of NLP models introduces a memory wall problem during the generation phase. To mitigate this issue, recent efforts have focused on quantizing model weights to sub-4-bit precision while preserving full precision for activations, resulting in practical speed-ups during inference on a single GPU. However, these improvements primarily stem from reduced memory movement, which necessitates a resource-intensive dequantization process rather than actual computational reduction. In this paper, we introduce LUT-GEMM, an efficient kernel for quantized matrix multiplication, which not only eliminates the resource-intensive dequantization process but also reduces computational costs compared to previous kernels for weight-only quantization. Furthermore, we proposed group-wise quantization to offer a flexible trade-off between compression ratio and accuracy. The impact of LUT-GEMM is facilitated by implementing high compression ratios through low-bit quantization and efficient LUT-based operations. We show experimentally that when applied to the OPT-175B model with 3-bit quantization, LUT-GEMM substantially accelerates token generation latency, achieving a remarkable 2.1$ imes$ improvement on a single GPU when compared to OPTQ, which relies on the costly dequantization process.

연구 동기 및 목표

  • 대규모 생성형 LM에 대한 메모리 및 에너지 효율적 추론을 위해 가중치 정밀도를 축소하고 활성화 정밀도는 유지합니다.
  • 가중치 전용 양자화 커널을 제안하여 균일 및 비균일 양자화를 모두 위한 디퀀타이제이션 오버헤드를 제거합니다.
  • 바이어스를 포함한 확장된 BCQ를 기반으로 다양한 양자화 체계를 표현하기 위해 LUT-GEMM을 개발합니다.
  • 압축 수준(저비트 가중치)을 늘리면 GPU 수와 지연 시간이 감소하되 큰 LM에서 큰 정확도 손실 없이도 가능함을 보입니다.
  • 매우 큰 모델(예: OPT-175B)에 대해 실용적인 속도 증가와 단일 GPU 추론 가능성을 보여줍니다.

제안 방법

  • 편향 항을 포함한 BCQ를 확장하여 비균일 양자화와 균일 양자화 모두를 하나의 BCQ 형식으로 표현합니다.
  • 그룹 크기 g를 구성 가능한 그룹화된 BCQ로 도입하여 압축 비율과 양자화 오차 사이의 트레이드를 제공합니다.
  • 중복된 부분 합을 대체하고 활성화 디퀀타이제이션을 피하기 위해 LUT 기반 연산을 사용하는 LUT-GEMM을 개발하여 가중치 전용 양자화 GEMM을 효율적으로 구현합니다.
  • GPU 스레드에 매핑하고 빠른 온칩 메모리의 공유 LUT를 활용하며 타일링/헤테로지니어스 단계를 최적화하도록 LUT-GEMM을 설계합니다(파라미터: TB당, mu=8, l, t_h, t_w, q, g).
  • 단일 배치 LUT-GEMM 연산식을 y = sum_{i=1}^q (A_i ∘ (B_i · x))로 정립합니다. 여기서 A는 FP16 스케일링, B는 FP16 이진, x는 FP16 입력이며 ∘는 요소별 곱셈입니다.
  • 메모리 점유율 기반 대기 시간에 대한 경험적 LUT 최적화(mu, g, q) 가이드를 제공하고 메모리 footprint 주도 지연 시간을 논의합니다.

실험 결과

연구 질문

  • RQ1가중치 전용 양자화 커널이 BCQ 기반 표현으로 활성화 디퀀타이제이션 없이도 대형 LM 추론을 가속할 수 있나요?
  • RQ2바이어스 항으로 BCQ를 확장하고 그룹화된 BCQ를 활성화하면 매우 큰 LM에서 압축, 지연 시간 및 정확도에 어떤 영향을 미치나요?
  • RQ3LUT-GEMM이 OPT-175B에 대해 기존의 디퀀타이제이션 기반 접근법(예: OPTQ) 대비 어떤 지연 시간 이점을 제공하나요?
  • RQ4공지 구현 측면에서 스레드 구성, LUT 저장, 메모리 점유율 등 LUT-GEMM 처리량을 극대화하는 GPU 구현 고려사항은 무엇인가요?

주요 결과

KernelData Type Precision for DataWeightOutputLatency (ms)
cuBLASFP32FP32FP321.4015
cuBLASFP16FP16FP160.7256
cuBLASINT8INT8INT320.6345
OPTQ (Frantar et al., 2022)FP16INT3FP160.1956
OPTQ (Frantar et al., 2022)FP32INT3FP320.3047
LUT-GEMMFP16BCQ8, INT8FP160.4620
LUT-GEMMFP16BCQ3, INT3FP160.1956
  • LUT-GEMM은 균일 및 비균일 양자화 형식을 모두 수용하는 유연한 BCQ 기반 표현으로 가중치 전용 양자화를 가능하게 합니다.
  • 바이어스 항을 가진 BCQ 확장과 그룹화된 양자화 도입으로 양자화 공간이 확장되어 대형 LM에서 압축-지연 시간 간의 트레이드오프를 개선합니다.
  • OPT-175B의 경우 3비트 BCQ 가중치를 단일 GPU에서 사용할 때 OPTQ보다 토큰 생성 지연 시간이 2.1× 빨라지며 다중 GPU 필요성이 감소합니다.
  • LUT-GEMM은 큰 정확도/성능 손실 없이 거의 단일 GPU 추론이 가능하다는 것을 보여주며 메모리 병목을 디퀀타이제이션 오버헤드 없이 해결합니다.
  • 지연 시간은 메모리 풋프린트와 밀접하게 연관되어 있으며 임계 값을 넘는 그룹 크기 g의 증가로 인해 레이아웃이 BCQ의 로우-와이즈 방식에 근접하면서도 더 높은 압축 기회를 제공합니다.
  • 실험 결과는 다양한 커널에서 LUT-GEMM의 지연 시간 이점(예: BCQ3/INT3의 0.1956 ms vs OPTQ FP16/INT3의 0.3047 ms)이 Table 2에 나타납니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.