[論文レビュー] An empirical study of LLaMA3 quantization: from LLMs to MLLMs
本論文は、ポストトレーニング量子化(PTQ)と LoRA-ファインチューニング(LoRA-FT)を用いたMetaのLLaMA3モデルに対する低ビット量子化を実証的に評価し、超低ビットでの性能劣化は無視できないことを示し、LLaMA3-70Bは試験データセット全般でLLaMA3-8Bより堅牢性が高いことを示している。
The LLaMA family, a collection of foundation language models ranging from 7B to 65B parameters, has become one of the most powerful open-source large language models (LLMs) and the popular LLM backbone of multi-modal large language models (MLLMs), widely used in computer vision and natural language understanding tasks. In particular, LLaMA3 models have recently been released and have achieved impressive performance in various domains with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-constrained scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration can potentially provide new insights and challenges for the low-bit quantization of LLaMA3 and other future LLMs, especially in addressing performance degradation issues that suffer in LLM compression. Specifically, we comprehensively evaluate the 10 existing post-training quantization and LoRA fine-tuning (LoRA-FT) methods of LLaMA3 on 1-8 bits and various datasets to reveal the low-bit quantization performance of LLaMA3. To uncover the capabilities of low-bit quantized MLLM, we assessed the performance of the LLaMA3-based LLaVA-Next-8B model under 2-4 ultra-low bits with post-training quantization methods. Our experimental results indicate that LLaMA3 still suffers from non-negligible degradation in linguistic and visual contexts, particularly under ultra-low bit widths. This highlights the significant performance gap at low bit-width that needs to be addressed in future developments. We expect that this empirical study will prove valuable in advancing future models, driving LLMs and MLLMs to achieve higher accuracy at lower bit to enhance practicality. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization , and quantized models are released at https://huggingface.co/Efficient-ML .
研究の動機と目的
- LLaMA3モデル(8Bおよび70B)が低ビット量子化下でどのように性能を発揮するか評価する。
- 1〜8ビットの範囲で、広範なPTQ手法とLoRA-FT技術を評価する。
- モデルスケール間の精度低下パターンとロバスト性の差異を特定する。
- 将来のLLM量子化研究開発を導く実用的な洞察を提供する。
提案手法
- LLaMA3-8BとLLaMA3-70Bを8つのPTQ手法と2つのLoRA-FT手法で量子化する。
- WikiText2、C4、PTB、およびゼロショットタスク PIQA、Winogrande、ARC-e、ARC-c、Hellaswag に対してPTQ量子化モデルを評価する。
- LoRA-FT量子化されたLLaMA3-8BをMMLUで評価し、ゼロショットタスクを確認する。
- 公正性を確保するためWikiText2の較正(128トークン、2048シーケンス長)を使用する。
- 必要に応じてブロックサイズ128のチャネル単位グルーピングを適用する。
- ベースラインのFP16/32BIT性能と比較し、パープレキシティとタスク精度を報告する。
実験結果
リサーチクエスチョン
- RQ1標準ベンチマーク全体で、さまざまなPTQおよびLoRA-FT量子化手法に対してLLaMA3-8Bはどのように性能を発揮するか。
- RQ2同じ手法下で、LLaMA3-70BはLLaMA3-8Bと比較して量子化に対するロバスト性がどうであるか。
- RQ3超低ビット量子化(1-2ビット)は許容できる性能をもたらすか、どの手法が精度を最も保持するか。
- RQ4LoRA-FT量子化はLLaMA3に信頼できる利得を提供するか、それとも事前学習スケールが有効性を制限するか。
- RQ5リソース制約環境で量子化済みのLLaMA3を展開する際の実践的含意は何か。
主な発見
- 量子化されたLLaMA3-8Bおよび-70Bは、PTQ手法全体で超低ビット幅で無視できない劣化を経験する。
- 超低ビット(2-bit以下)の性能は8Bで顕著に悪化する可能性があり、特定の超低ビット手法は不調に終わる。
- LLaMA3-8BのLoRA-FT量子化は量子化誤差を一貫して補償せず、非LoRA-FTの4-bitベースラインを下回ることがある。
- 4-bit LoRA-FT量子化されたLLaMA3-8Bは、いくつかの4-bit LLaMA1/2ベースラインよりも優れる可能性があり、新しいモデルで量子化ダイナミクスが変化していることを示唆する。
- 特定のPTQ手法(例:PB-LLM、BiLLM、DB-LLM、QuIP、AWQ、GPTQ)は強みが異なり、BiLLMやPB-LLMのような超低ビット手法は1〜2ビットの性能を押し上げるが、全体として完全精度との差を埋めきれていない。
- SmoothQuantは一部の構成で活性化量子化を安定化させるが、非常に低いビット幅(例:4-bit)では崩壊する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。