Skip to main content
QUICK REVIEW

[論文レビュー] LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models

Gunho Park, Baeseong Park|arXiv (Cornell University)|Jun 20, 2022
Ferroelectric and Negative Capacitance Devices被引用数 20
ひとこと要約

LUT-GEMM は LUT ベースの行列乗算カーネルを導入し、重みのみの量子化(拡張 BCQ によるバイアス付きで一様または非一様)と全精度活性化をサポートすることで、レイテンシを大幅に削減し、最小限の精度低下で OPT-175B を単一 GPU で実行する可能性を開く。

ABSTRACT

Recent advances in self-supervised learning and the Transformer architecture have significantly improved natural language processing (NLP), achieving remarkably low perplexity. However, the growing size of NLP models introduces a memory wall problem during the generation phase. To mitigate this issue, recent efforts have focused on quantizing model weights to sub-4-bit precision while preserving full precision for activations, resulting in practical speed-ups during inference on a single GPU. However, these improvements primarily stem from reduced memory movement, which necessitates a resource-intensive dequantization process rather than actual computational reduction. In this paper, we introduce LUT-GEMM, an efficient kernel for quantized matrix multiplication, which not only eliminates the resource-intensive dequantization process but also reduces computational costs compared to previous kernels for weight-only quantization. Furthermore, we proposed group-wise quantization to offer a flexible trade-off between compression ratio and accuracy. The impact of LUT-GEMM is facilitated by implementing high compression ratios through low-bit quantization and efficient LUT-based operations. We show experimentally that when applied to the OPT-175B model with 3-bit quantization, LUT-GEMM substantially accelerates token generation latency, achieving a remarkable 2.1$\times$ improvement on a single GPU when compared to OPTQ, which relies on the costly dequantization process.

研究の動機と目的

  • 活性化の精度を保ちつつ重みの精度を抑えることで、大規模生成型LMのメモリおよびエネルギー効率の高い推論を動機づける。
  • デクオリフィケーションのオーバーヘッドを排除する重みのみの量子化カーネルを提案する(一様量子化と非一様量子化の両方)。
  • 拡張二進符号化量子化(BCQ)とバイアスを用いて、多様な量子化方式を表現する LUT-GEMM を開発する。
  • 圧縮率の向上(低ビット重み)により、GPU数とレイテンシを大幅に削減できるが、大規模LMで著しい精度低下は生じないことを示す。
  • 実用的な速度向上と非常に大きなモデル(例: OPT-175B)の単一GPU推論可能性を実証する。

提案手法

  • バイアス項を追加して、非一様量子化と一様量子化の両方を統一 BCQ フォーマット内で表現できるように BCQ を拡張する。
  • 構成可能なグループサイズ g を持つグループ-wise BCQ を導入し、圧縮比と量子化誤差をトレードオフする。
  • LUT ベースの計算を用いて冗長な部分和を置換し活性化のデクオリフィケーションを回避して、効率的な重みのみの量子化 GEMM を実現する LUT-GEMM を開発する。
  • 高速オンチップメモリの共有 LUT を用いて GPU スレッドにマッピングし、タイル化/反復ステップを最適化する( TB あたりのパラメータ、mu=8、l、t_h、t_w、q、g)。
  • 単一バッチの LUT-GEMM 操作を y = sum_{i=1}^q (A_i ∘ (B_i · x)) として定式化する。ここで A は FP16 スケーリング、B は FP16 バイナリ、x は FP16 入力、∘ は要素ごとの乗算。
  • 経験的な LUT 最適化(mu, g, q)ガイダンスを提供し、メモリフットプリントに基づくレイテンシについて論じる。

実験結果

リサーチクエスチョン

  • RQ1デクオリフィケーションなしで activations をデクオリファイせずに、BCQ ベース表現を用いた重みのみの量子化カーネルは大規模 LM 推論を加速できるか。
  • RQ2バイアス項を追加した BCQ の拡張とグループ-wise BCQ の導入は、圧縮、レイテンシ、精度に対して大規模 LM でどのような影響を与えるか。
  • RQ3LUT-GEMM によって OPT-175B で得られる性能向上(レイテンシ)は、既存のデクオリティゼーションベースのアプローチ(例: OPTQ)と比べてどの程度か。
  • RQ4LUT-GEMM のスループットを最大化するための実践的な GPU 実装の考慮事項(スレッド設定、LUT の格納、メモリフットプリント)は何か。

主な発見

KernelData Type Precision for DataWeightOutputLatency (ms)
cuBLASFP32FP32FP321.4015
cuBLASFP16FP16FP160.7256
cuBLASINT8INT8INT320.6345
OPTQ (Frantar et al., 2022)FP16INT3FP160.1956
OPTQ (Frantar et al., 2022)FP32INT3FP320.3047
LUT-GEMMFP16BCQ8, INT8FP160.4620
LUT-GEMMFP16BCQ3, INT3FP160.1956
  • LUT-GEMM は、均一量子化と非均一量子化の両方の形式を考慮できる柔軟な BCQ ベースの表現を用いた重みのみの量子化を可能にする。
  • BCQ にバイアス項を追加し、グループ-wise 量子化を導入することで量子化空間が拡張され、大規模 LM における圧縮–レイテンシのトレードオフを改善する。
  • OPT-175B に対して、単一 GPU で 3-bit BCQ 重みを使用した場合、LUT-GEMM は OPTQ より 2.1×高速なトークン生成レイテンシを達成し、複数 GPU の必要性を低減する。
  • LUT-GEMM は、ほぼ単一 GPU 推論が最小限の精度/性能低下で可能であることを示し、デクオリフィケーションのオーバーヘッドを抑えつつメモリのボトルネックに対処する。
  • レイテンシのスケーリングはメモリフットプリントに密接に関連しており、しきい値を超えるグループサイズ g の増加は行単位 BCQ に近いレイテンシをもたらしつつ、より高い圧縮機会を提供する。
  • 実測結果は、LUT-GEMM がカーネル間でレイテンシ優位性を示す(例: Table 2 の LUT-GEMM BCQ3/INT3 0.1956 ms vs OPTQ FP16/INT3 0.3047 ms)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。