QUICK REVIEW

[論文レビュー] LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models

Gunho Park, Baeseong Park|arXiv (Cornell University)|Jun 20, 2022

Ferroelectric and Negative Capacitance Devices被引用数 20

ひとこと要約

LUT-GEMM は LUT ベースの行列乗算カーネルを導入し、重みのみの量子化（拡張 BCQ によるバイアス付きで一様または非一様）と全精度活性化をサポートすることで、レイテンシを大幅に削減し、最小限の精度低下で OPT-175B を単一 GPU で実行する可能性を開く。

ABSTRACT

Recent advances in self-supervised learning and the Transformer architecture have significantly improved natural language processing (NLP), achieving remarkably low perplexity. However, the growing size of NLP models introduces a memory wall problem during the generation phase. To mitigate this issue, recent efforts have focused on quantizing model weights to sub-4-bit precision while preserving full precision for activations, resulting in practical speed-ups during inference on a single GPU. However, these improvements primarily stem from reduced memory movement, which necessitates a resource-intensive dequantization process rather than actual computational reduction. In this paper, we introduce LUT-GEMM, an efficient kernel for quantized matrix multiplication, which not only eliminates the resource-intensive dequantization process but also reduces computational costs compared to previous kernels for weight-only quantization. Furthermore, we proposed group-wise quantization to offer a flexible trade-off between compression ratio and accuracy. The impact of LUT-GEMM is facilitated by implementing high compression ratios through low-bit quantization and efficient LUT-based operations. We show experimentally that when applied to the OPT-175B model with 3-bit quantization, LUT-GEMM substantially accelerates token generation latency, achieving a remarkable 2.1$\times$ improvement on a single GPU when compared to OPTQ, which relies on the costly dequantization process.

研究の動機と目的

活性化の精度を保ちつつ重みの精度を抑えることで、大規模生成型LMのメモリおよびエネルギー効率の高い推論を動機づける。
デクオリフィケーションのオーバーヘッドを排除する重みのみの量子化カーネルを提案する（一様量子化と非一様量子化の両方）。
拡張二進符号化量子化（BCQ）とバイアスを用いて、多様な量子化方式を表現する LUT-GEMM を開発する。
圧縮率の向上（低ビット重み）により、GPU数とレイテンシを大幅に削減できるが、大規模LMで著しい精度低下は生じないことを示す。
実用的な速度向上と非常に大きなモデル（例: OPT-175B）の単一GPU推論可能性を実証する。

提案手法

バイアス項を追加して、非一様量子化と一様量子化の両方を統一 BCQ フォーマット内で表現できるように BCQ を拡張する。
構成可能なグループサイズ g を持つグループ-wise BCQ を導入し、圧縮比と量子化誤差をトレードオフする。
LUT ベースの計算を用いて冗長な部分和を置換し活性化のデクオリフィケーションを回避して、効率的な重みのみの量子化 GEMM を実現する LUT-GEMM を開発する。
高速オンチップメモリの共有 LUT を用いて GPU スレッドにマッピングし、タイル化/反復ステップを最適化する（ TB あたりのパラメータ、mu=8、l、t_h、t_w、q、g）。
単一バッチの LUT-GEMM 操作を y = sum_{i=1}^q (A_i ∘ (B_i · x)) として定式化する。ここで A は FP16 スケーリング、B は FP16 バイナリ、x は FP16 入力、∘ は要素ごとの乗算。
経験的な LUT 最適化（mu, g, q）ガイダンスを提供し、メモリフットプリントに基づくレイテンシについて論じる。

実験結果

リサーチクエスチョン

RQ1デクオリフィケーションなしで activations をデクオリファイせずに、BCQ ベース表現を用いた重みのみの量子化カーネルは大規模 LM 推論を加速できるか。
RQ2バイアス項を追加した BCQ の拡張とグループ-wise BCQ の導入は、圧縮、レイテンシ、精度に対して大規模 LM でどのような影響を与えるか。
RQ3LUT-GEMM によって OPT-175B で得られる性能向上（レイテンシ）は、既存のデクオリティゼーションベースのアプローチ（例: OPTQ）と比べてどの程度か。
RQ4LUT-GEMM のスループットを最大化するための実践的な GPU 実装の考慮事項（スレッド設定、LUT の格納、メモリフットプリント）は何か。

主な発見

Kernel	Data Type Precision for Data	Weight	Output	Latency (ms)
cuBLAS	FP32	FP32	FP32	1.4015
cuBLAS	FP16	FP16	FP16	0.7256
cuBLAS	INT8	INT8	INT32	0.6345
OPTQ (Frantar et al., 2022)	FP16	INT3	FP16	0.1956
OPTQ (Frantar et al., 2022)	FP32	INT3	FP32	0.3047
LUT-GEMM	FP16	BCQ8, INT8	FP16	0.4620
LUT-GEMM	FP16	BCQ3, INT3	FP16	0.1956

LUT-GEMM は、均一量子化と非均一量子化の両方の形式を考慮できる柔軟な BCQ ベースの表現を用いた重みのみの量子化を可能にする。
BCQ にバイアス項を追加し、グループ-wise 量子化を導入することで量子化空間が拡張され、大規模 LM における圧縮–レイテンシのトレードオフを改善する。
OPT-175B に対して、単一 GPU で 3-bit BCQ 重みを使用した場合、LUT-GEMM は OPTQ より 2.1×高速なトークン生成レイテンシを達成し、複数 GPU の必要性を低減する。
LUT-GEMM は、ほぼ単一 GPU 推論が最小限の精度/性能低下で可能であることを示し、デクオリフィケーションのオーバーヘッドを抑えつつメモリのボトルネックに対処する。
レイテンシのスケーリングはメモリフットプリントに密接に関連しており、しきい値を超えるグループサイズ g の増加は行単位 BCQ に近いレイテンシをもたらしつつ、より高い圧縮機会を提供する。
実測結果は、LUT-GEMM がカーネル間でレイテンシ優位性を示す（例: Table 2 の LUT-GEMM BCQ3/INT3 0.1956 ms vs OPTQ FP16/INT3 0.3047 ms）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。