QUICK REVIEW

[論文レビュー] The case for 4-bit precision: k-bit Inference Scaling Laws

Tim Dettmers, Luke Zettlemoyer|arXiv (Cornell University)|Dec 19, 2022

Topic Modeling被引用数 22

ひとこと要約

本論文はゼロショット量子化におけるビットレベルの推論スケーリング法則を複数のLLMファミリにわたり研究し、固定総モデルビット数とゼロショット精度の場合、4ビット精度がほぼ普遍的に最適であることを示す。

ABSTRACT

Quantization methods reduce the number of bits required to represent each parameter in a model, trading accuracy for smaller memory footprints and inference latencies. However, the final model size depends on both the number of parameters of the original model and the rate of compression. For example, a 30B 8-bit model and a 60B 4-bit model have the same number of bits but may have very different zero-shot accuracies. In this work, we study this trade-off by developing inference scaling laws of zero-shot performance in Large Language Models (LLMs) to determine the bit-precision and model size that maximizes zero-shot performance. We run more than 35,000 experiments with 16-bit inputs and k-bit parameters to examine which zero-shot quantization methods improve scaling for 3 to 8-bit precision at scales of 19M to 176B parameters across the LLM families BLOOM, OPT, NeoX/Pythia, and GPT-2. We find that it is challenging to improve the bit-level scaling trade-off, with the only improvements being the use of a small block size -- splitting the parameters into small independently quantized blocks -- and the quantization data type being used (e.g., Int vs Float). Overall, our findings show that {4-bit} precision is almost universally optimal for total model bits and zero-shot accuracy.

研究の動機と目的

量子化されたLLMにおけるモデルサイズ（ビット）とゼロショット精度のトレードオフの研究を動機づける。
複数のLLMファミリとスケールにわたり、異なるビット精度レベルがゼロショット性能に与える影響を体系的に評価する。
固定総モデルサイズの下でビットレベルのスケーリングを最適化する量子化設定（データ型、ブロックサイズ）を特定する。
4ビット量子化の実用的な推奨を提供し、制限と今後の方向性を議論する。

提案手法

19M〜176BパラメータのOPT、BLOOM、Pythia/NeoX、GPT-2、BLOOMZモデルを対象に、入力16ビット、パラメータkビット（3 ≤ k ≤ 16）で3万5000超の実験を実施した。
EleutherAI LM Eval Harnessを用いてLAMBADA、PiQA、Winogrande、HellaSwagでゼロショット性能を評価；パープレキシティを信頼性の高い指標として用いたが、明確さのためゼロショット精度を報告する。
ブロックサイズ、量子化データ型（Int、Float、quantile、dynamic exponent）、アウトライヤ依存の代理量子化を調査し、ビットレベルのスケーリングへの影響を評価した。
6–8ビット手法を比較したがスケーリングの改善は見られず、4ビットの小さなブロックサイズと有利なデータ型に焦点を当てた。
スケーリング曲線に対して多変量べき法則ではなく線形補間を適用し、精度間でほぼ平行なスケーリング傾向を観察した。

実験結果

リサーチクエスチョン

RQ1多様なLLMファミリとスケールにわたり、固定された総モデルビット数に対してゼロショット性能の最適なビット精度は何か？
RQ2量子化手法（データ型、ブロックサイズ、アウトライヤ処理）が、3–8ビットへ精度を下げる際のビットレベルスケーリングにどのように影響するか？
RQ34ビットモデルはモデルサイズとファミリを問わず、ゼロショット精度と効率を普遍的に最大化するのか？
RQ4アウトライヤ依存の代理量子化またはワンショット量子化アプローチは、4ビット未満のビットレベルスケーリングを意味のある程度改善できるか？

主な発見

4ビット精度は、実験対象のほぼすべてのモデルとスケールで最適なビットレベルのスケーリングをもたらす。3ビットは彼らの研究ではBLOOM-176Bでわずかに上回ることがある。
スケーリング曲線はモデルサイズを超えてほぼ平行で、ビットレベルのスケーリングはほとんどスケール不変であることを示している。
3ビットの不安定さは大規模モデルでOPTとPythiaに生じ、GPT-2とBLOOMは安定している。
小さなブロックサイズ（例：64–128）と特定のデータ型（quantile量子化、浮動小数点）は、4ビットのスケーリングを他の調整より改善する。
6–8ビット量子化手法の組み合わせでビットレベルのスケーリングが改善された例はなく、改善は主に4ビットを維持し、有利なブロックサイズとデータ型を用いることに起因する。
アウトライヤ依存の代理量子化は3ビットのOPT/Pythiaを安定化させることがあるが、4ビットのスケーリングを超えることはなく、スケーリングには4ビットが依然最適である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。