QUICK REVIEW

[論文レビュー] RPTQ: Reorder-based Post-training Quantization for Large Language Models

Zhihang Yuan, Lin Niu|arXiv (Cornell University)|Apr 3, 2023

Topic Modeling被引用数 20

ひとこと要約

RPTQは、LLMの活性化に対する再順序ベースのポストトレーニング量子化を導入し、類似の値レンジを持つチャネルをクラスタリングしてクラスタ内で量子化する手法を採用し、レイヤー正規化と再構成された重みと融合して明示的な再順序を回避し、3ビットの活性化量子化と大幅なメモリ削減を実現する。

ABSTRACT

Large-scale language models (LLMs) have demonstrated impressive performance, but their deployment presents challenges due to their significant memory usage. This issue can be alleviated through quantization. In this paper, we identify that the challenge in quantizing activations in LLMs arises from varying ranges across channels, rather than solely the presence of outliers. To address this challenge, we introduce a quantization method called RPTQ, which utilizes a reorder-based approach. By rearranging the channels and quantizing them in clusters, RPTQ effectively mitigates the impact of range differences between channels. To minimize the overhead of the reorder operation, we fuse it into the layer norm operation and weights in linear layers. In our experiments, RPTQ achieved a significant breakthrough by utilizing 3-bit activation in LLMs for the first time, resulting in a substantial reduction in memory usage. For instance, quantizing OPT-175b can lead to a memory consumption reduction of up to 80%.

研究の動機と目的

大規模言語モデル（LLMs）のデプロイにおけるメモリのボトルネックを動機づけ、解決する。
外れ値だけでなく、チャネルごとのレンジ差に起因する活性化量子化の課題を調査する。
実用性を維持しつつ量子化誤差を低減する再順序ベースのPTQ法（RPTQ）を提案する。

提案手法

チャネルごとの最小/最大値を用いてK-meansで活性化チャネルをgクラスタにクラスタリングする。
同じクラスタ内のチャネルをまとめるようにチャネルの再順序を行う。
各クラスタ内で、クラスタ固有の量子化パラメータ（スケールsとゼロ点z）を用いて活性化を量子化する。
推論時の明示的なデータ移動を回避するため、再順序操作をレイヤー正規化に融合する。
線形層の重みを再順序化して、再順序化された活性化を直接バッチ行列積で処理する。
Q/K間で再順序インデックスを共有し、一部の出力（例：残差パス）を再順序化しないことで、Q/K/結合注意計算のチャネル整列を確保し、整列のずれを回避する。

実験結果

リサーチクエスチョン

RQ1同じ値レンジを持つチャネルをクラスタリングして活性化量子化を行うことは、テンソルごとやチャネルごとの一様量子化を用いるよりも大幅に改善できる可能性があるだろうか？
RQ2RPTQを大規模なOPTモデルに適用した場合のメモリ削減量と精度低下はどの程度か（キーバリュキャッシュを量子化する代替案を含む）？
RQ3再順序をレイヤー正規化に融合し、重み行列を適応させることで、活性化の低ビット幅（例えば3〜4ビット）で実用的な推論を実現できるか？
RQ4クラスタ数が量子化誤差とモデル性能に与える影響は、モデルサイズを超えてどのようになるか？

主な発見

RPTQはLLMの3ビット活性化量子化を実現し、実質的なメモリ削減を達成する。
OPT-175bでは、特定の構成（例：KV重視の量子化）で、パープレックス性の影響を許容しつつメモリ使用量を最大約80%低減できる。
低ビット活性化（例：W4A4KV、W3A3KV）でのキーバリュキャッシュ（KV）の量子化は、全活性化量子化と比較してFP16に近い性能を保つ。
チャネルを少数のクラスタにクラスタ化すると量子化誤差が減り精度が向上する。アブレーションではクラスタ数が増えるほど利得が見られる。
長いシーケンス長および大きなバッチサイズで活性化量子化のメモリ節約の効果が特に顕著で、長文タスクにおけるキャッシュメモリ圧力を緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。