QUICK REVIEW

[論文レビュー] ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation

Zhewei Yao, Xiaoxia Wu|arXiv (Cornell University)|Mar 15, 2023

Topic Modeling被引用数 15

ひとこと要約

この論文は、モデルファミリー（OPT および BLOOM）とサイズを横断する包括的な PTQ 研究を実施し、重みのみ、活性化のみ、重みと活性化の量子化を RTN、GPTQ、ZeroQuant variant で比較し、LoRC を導入して最小のサイズ増加でモデル品質を回復する。

ABSTRACT

Post-training quantization (PTQ) has emerged as a promising technique for mitigating memory consumption and computational costs in large language models (LLMs). However, a systematic examination of various quantization schemes, model families, and quantization bit precision has been absent from the literature. In this paper, we conduct a comprehensive analysis of these factors by investigating the effects of PTQ on weight-only, activation-only, and weight-and-activation quantization using diverse methods such as round-to-nearest (RTN), GPTQ, ZeroQuant, and their variants. We apply these methods to two distinct model families with parameters ranging from 125M to 176B. Our contributions include: (1) a sensitivity analysis revealing that activation quantization is generally more susceptible to weight quantization, with smaller models often outperforming larger models in terms of activation quantization; (2) an evaluation and comparison of existing PTQ methods to optimize model size reduction while minimizing the impact on accuracy, revealing that none of the current methods can achieve the original model quality for quantization with either INT4-weight or INT4-weight-and-INT8-activation; (3) based on these insights, we propose an optimized method called Low-Rank Compensation (LoRC), which employs low-rank matrices to enhance model quality recovery with a minimal increase in model size.

研究の動機と目的

PTQ が、重量のみ、活性化のみ、重みと活性化の量子化の下で、モデルサイズとファミリ全体でどのように振る舞うかを評価する。
既存の PTQ 手法（RTN、GPTQ、ZeroQuant variant）を評価し、精度を保ちながらモデルサイズを縮小できるかを検証する。
モデルやサイズ間で、活性化量子化と重み量子化の感度のパターンを特定する。
FP16 品質の性能を回復するための低ランク補償技術を用いた PTQ の改善を提案する。
モデルサイズ別の実用的な量子化ガイドラインを提供する。

提案手法

RTN、GPTQ、ZeroQuant およびその派生を用いて、OPT および BLOOM モデル（125M から 176B）に対して、重みのみ、活性化のみ、重みと活性化の量子化を適用する。
活性化量子化と重み量子化の感度分析を実施し、対称量子化・非対称量子化、行ごと/トークンごとのスキームを含む。
最適化された構成の下で、サイズ削減を最大化しつつ perplexity の劣化を最小化するよう PTQ 手法を比較する。
LoRC（Low Rank Compensation）を導入し、量子化誤差 E = W - W_hat を SVD を用いて低ランクの U と V に因数分解して量子化重みを補強する。
FGQ（fine-grained quantization）を用いた LoRC を実証し、パラメータのオーバーヘッドを定量化し、最適な低ランク次元 m を分析する。
モデルサイズと量子化設定別の実用的な量子化推奨事項を提供する。

実験結果

リサーチクエスチョン

RQ1さまざまなサイズと事前学習データを持つ LLM が、量子化下で同様の振る舞いを示すか？
RQ2既存の PTQ 手法は、精度を犠牲にすることなく LLM のサイズを効果的に最小化しているか？
RQ3重みのみ、活性化のみ、重みと活性化の量子化は、モデルファミリ（OPT および BLOOM）を横断してどのように比較されるか？
RQ4LoRC は FGQ および PTQ と組み合わせた場合、最小のサイズ増加でモデル品質の回復を改善できるか？
RQ5異なるモデルサイズに対して、どのような実用的な量子化設定が推奨されるか？

主な発見

活性化量子化は一般にモデル間で重み量子化へより敏感であり、より小さなモデルは活性化量子化でしばしば大きなモデルよりも優れている。
INT4 重みに対する、または INT4 重みと INT8 活性化を組み合わせた (W4A8) 量子化で元のモデル品質へ到達するには、既存の PTQ 手法は苦戦している。
LoRC は、低ランク行列で量子化誤差を近似することにより最小限のパラメータのオーバーヘッドでモデル品質を改善する；FGQ と組み合わせると利得が大きい。
GPTQ は重みのみの量子化で最も良く機能する傾向があり、ZeroQuant の variants は一般に重みと活性化の量子化で勝る。
Fine-grained quantization (FGQ) は誤差を大幅に削減し、4-bit 重みによって大規模モデル（≥10B）で Class -1 の性能を可能にする；活性化ブロックサイズとモデルサイズが利得に影響を与える。
LoRC は INT4 量子化で FP16 品質をほぼ回復でき、最適な利得は低ランク（m ≈ 4–8）で得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。