[論文レビュー] TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly
TTQは推論時のオンラインアクティベーション認識量子化を導入し、オフライン校正なしでLLMsを圧縮、ゼロ校正データでの速度upとプロンプト全体での堅牢性を実現する。 activations統計量ベースのAWQと軽量なオンライン手法、およびオプションの低ランク分解を組み合わせて、量子化性能を向上させる。
To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these methods highly rely on calibration data, domain shift issues may arise for unseen downstream tasks. We propose a test-time quantization (TTQ) framework which compresses large models on the fly at inference time to resolve this issue. With an efficient online calibration, instant activation-aware quantization can adapt every prompt regardless of the downstream tasks, yet achieving inference speedup. Several experiments demonstrate that TTQ can improve the quantization performance over state-of-the-art baselines.
研究の動機と目的
- オフラインのアクティベーション認識量子化が抱えるドメインシフトおよび校正データ依存性をLLMsに適用して解決する。
- 推論時に各プロンプトへ適応するゼロ校正のオンライン量子化フレームワークを開発する。
- 推論をさらに加速しつつ精度を維持するために低ランク分解を統合する。
- 複数のLLMベンチマークでTTQの優位性を最新手法のベースラインと比較して実証する。
提案手法
- QDQ演算を用いたグループごとのRTN量子化を用いて重みをその場で量子化する。
- AWQ(Activation-Aware Quantization)を採用し、対角入力共分散近似を用いた重み量子化で高速な閉形式解を提供する。
- 推論中に小さな校正様のパスを通してオンラインで活性化統計を推定し、収縮共分散C_lambdaを用いてL = E_X|| (W- W_hat) X ||^2を最小化する。
- テスト時の網羅的探索を避けるためにハイパーパラメータα、λ、pを固定しておく。
- 任意で動的な低ランク因子BおよびAを組み込んで、WをW_q + B Aとして表現でき、W_qはその場で量子化される。
- TTQの計算オーバーヘッドを分析し、d', Tの増加につれてTTQのオーバーヘッドが無視できることを示す。
- CUDAベースのAWQ/GEMMカーネルを提供してGPU上での量子化投影を加速する。
実験結果
リサーチクエスチョン
- RQ1デプロイ時に校正が利用不可能な場合、AWQおよびRTNベースラインに対するTTQの性能はどの程度か。
- RQ2グループサイズgがモデルとビット幅全体で量子化品質とパープレキシティにどのような影響を与えるか。
- RQ3非常に低いビット幅(2-5ビット)でもTTQは高い精度を維持できるか。
- RQ4低ランク分解をTTQと統合することで大きな精度低下なしに追加の速度アップを得られるか。
主な発見
| Quantization | 2 bits | 3 bits | 4 bits | 5 bits |
|---|---|---|---|---|
| OPT-125M (WT2/PTB/C4 Avg) | 5058.5 | 56.3 | 33.5 | 31.8 |
| OPT-1.3B (WT2/PTB/C4 Avg) | 11514.4 | 27.2 | 18.1 | 17.2 |
| OPT-2.7B (WT2/PTB/C4 Avg) | 6274.5 | 36.0 | 15.7 | 15.0 |
| OPT-6.7B (WT2/PTB/C4 Avg) | 5716.5 | 26.2 | 13.7 | 13.2 |
| Qwen3-0.6B (WT2/PTB/C4 Avg) | 8.2e6 | 127.3 | 38.2 | 33.5 |
| Qwen3-1.7B (WT2/PTB/C4 Avg) | 1.4e6 | 162.8 | 30.6 | 26.1 |
| Gemma3-270M (WT2/PTB/C4 Avg) | 2.6e11 | 1795.0 | 391.9 | 315.0 |
| Gemma3-1B (WT2/PTB/C4 Avg) | 8.6e5 | 209.4 | 111.1 | 96.6 |
- オンラインAWQを用いたTTQは、校正データが限られている場合や欠如している場合にも、WT2、PTB、C4ベンチマークでオフラインAWQベースラインよりパープレキシティが向上する。
- グループサイズの影響:マイクロスケーリング(g < 32)は有利で、AWQよりもTTQは大きなgを許容し、r=16のTTQはしばしばRTNより優れ、AWQと同等程度の性能を示す。
- 3-bit量子化で複数のモデル(OPT-125M〜Gemma-1B)でゼロのオフライン校正データで強力な性能を示し、5ビットではしばしば非圧縮モデルの性能に近づく。
- 低ランク分解(B A)をTTQに組み込むと、残差を量子化し低ランク射影を活用することで、設定によっては最大5xの速度アップを、過剰なオーバーヘッドを抑えつつ実現できる。
- TTQはOPT、Qwen3、Gemmaモデルに対してWT2、PTB、C4データセットで最先端ベースラインを大幅に上回る改善を示した。校正なしTTQはAWQより校正データセット間での変動が小さい傾向を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。