[論文レビュー] Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
IR-QLoRA は Information Calibration Quantization および Information Elastic Connection を導入し、量子化および LoRA によるファインチューニング中の情報を保持することで、超低ビットの LLM に対して最小のオーバーヘッドで精度を向上させる。
The LoRA-finetuning quantization of LLMs has been extensively studied to obtain accurate yet compact LLMs for deployment on resource-constrained hardware. However, existing methods cause the quantized LLM to severely degrade and even fail to benefit from the finetuning of LoRA. This paper proposes a novel IR-QLoRA for pushing quantized LLMs with LoRA to be highly accurate through information retention. The proposed IR-QLoRA mainly relies on two technologies derived from the perspective of unified information: (1) statistics-based Information Calibration Quantization allows the quantized parameters of LLM to retain original information accurately; (2) finetuning-based Information Elastic Connection makes LoRA utilizes elastic representation transformation with diverse information. Comprehensive experiments show that IR-QLoRA can significantly improve accuracy across LLaMA and LLaMA2 families under 2-4 bit-widths, e.g., 4- bit LLaMA-7B achieves 1.4% improvement on MMLU compared with the state-of-the-art methods. The significant performance gain requires only a tiny 0.31% additional time consumption, revealing the satisfactory efficiency of our IR-QLoRA. We highlight that IR-QLoRA enjoys excellent versatility, compatible with various frameworks (e.g., NormalFloat and Integer quantization) and brings general accuracy gains. The code is available at https://github.com/htqin/ir-qlora.
研究の動機と目的
- LoRA-finetuned LLMs を超低ビット幅で正確に量子化することを動機づける。
- 現在の LoRA-量子化手法における情報損失をコアなボトルネックとして同定する。
- ICQ を提案し、エントロピー最大化を通じて量子化器を較正して情報を保持する。
- IEC を提案し、パラメーターフリーで情報の転送を弾性的に行えるよう LoRA を強化する。
- LLaMA、LLaMA2 及び様々な量子化スキーム全体で普遍的な改善を実証する。
提案手法
- 基準となる LoRA-finetuning 量子化フレームワークを文脈として採用する。
- Information Calibration Quantization (ICQ) を提案し、較正済みのシフトパラメータ τ および最適化されたスケーリング s を用いて量子化重みのエントロピーを最大化する。
- Information Elastic Connection (IEC) を導入し、パラメーターフリーで弾性的な経路を介して LoRA が量子化された LLM から情報へアクセスし多様化できるようにする。
- ICQ および IEC の機構を、量子化と LoRA 統合の特定の式(例:Eq. 8–11 は ICQ、Eq. 12–15 は IEC)で定式化する。
- NormalFloat および Integer 量子化との互換性を示し、トレーニング/推論オーバーヘッドがほとんどないことを報告する。
実験結果
リサーチクエスチョン
- RQ1超低ビット量子化からの情報損失を LoRA ファインチューニング中に効果的に回復できるか。
- RQ2量子化された LLM 重みの情報保持を最大化して下流タスクの精度を向上させる方法は。
- RQ3パラメーターフリー接続(IEC)が LoRA を補強して量子化表現をより活用できるか。
- RQ4ICQ と IEC は、モデルファミリ(LLaMA/LLaMA2)およびビット幅 across で既存の LoRA ベース量子化パイプラインと広く互換性があるか。
主な発見
| 方法 | ビット | MMLU | 人文 | STEM | 社会 | その他 | 平均 |
|---|---|---|---|---|---|---|---|
| LLaMA-7B | 16 | 33.3 | 29.8 | 37.8 | 38.0 | 34.6 | - |
| PEQA | 4 | 34.9 | 28.9 | 37.5 | 40.1 | 34.8 | - |
| NormalFloat | 4 | 33.1 | 30.6 | 38.8 | 38.8 | 35.1 | - |
| QLoRA w/ GPTQ | 4 | 33.8 | 31.3 | 37.4 | 42.2 | 36.0 | - |
| QLoRA | 4 | 36.1 | 31.9 | 42.0 | 44.5 | 38.4 | - |
| QA-LoRA | 4 | 36.6 | 32.4 | 44.8 | 44.9 | 39.4 | - |
| IR-QLoRA (ours) | 4 | 38.6 | 34.6 | 45.2 | 45.5 | 40.8 | - |
| LLaMA-13B | 16 | 40.6 | 36.7 | 48.9 | 48.0 | 43.3 | - |
| NormalFloat | 4 | 43.0 | 34.5 | 51.8 | 51.4 | 45.0 | - |
| PEQA | 4 | 43.0 | 37.7 | 53.6 | 49.0 | 45.0 | - |
| QLoRA | 4 | 45.4 | 37.4 | 55.7 | 54.3 | 48.0 | - |
| QLoRA w/ GPTQ | 4 | 48.4 | 38.3 | 54.9 | 55.2 | 49.2 | - |
| QA-LoRA | 4 | 48.4 | 38.3 | 54.9 | 55.2 | 49.2 | - |
| IR-QLoRA (ours) | 4 | 47.2 | 39.0 | 56.5 | 55.0 | 49.3 | - |
| LLaMA-30B | 16 | 56.2 | 45.9 | 67.1 | 63.9 | 58.2 | - |
| NormalFloat | 4 | 55.3 | 44.7 | 66.2 | 63.3 | 57.3 | - |
| QLoRA | 4 | 57.2 | 48.6 | 69.8 | 65.2 | 60.0 | - |
| QA-LoRA | 4 | 57.9 | 48.8 | 71.0 | 65.5 | 60.6 | - |
| IR-QLoRA (ours) | 4 | 58.1 | 49.4 | 70.7 | 65.8 | 60.8 | - |
| LLaMA-65B | 16 | 61.4 | 51.9 | 73.6 | 67.6 | 63.4 | - |
| QA-LoRA | 4 | 57.6 | 51.1 | 73.9 | 67.4 | 62.1 | - |
| NormalFloat | 4 | 60.7 | 52.3 | 72.6 | 67.3 | 63.0 | - |
| QLoRA w/ GPTQ | 4 | 60.4 | 52.5 | 73.0 | 67.2 | 63.0 | - |
| QLoRA | 4 | 59.8 | 52.9 | 75.0 | 69.6 | 63.9 | - |
| IR-QLoRA (ours) | 4 | 61.6 | 52.0 | 75.6 | 68.9 | 64.3 | - |
- IR-QLoRA は、LLaMA および LLaMA2 ファミリ全体で 2-4 ビット幅の際に SOTA LoRA-finetuning 量子化手法を一貫して上回る。
- 4-bit LLaMA-7B では、IR-QLoRA は 40.8% の平均を達成し、QLoRA の 38.4% を上回る。
- 2-3 ビットの結果では IR-QLoRA が堅牢な性能を維持し、例えば 2-bit ではいくつかのサイズとデータセットで 4-bit ベースラインを約 0.5% 上回る。
- ICQ は量子化重みのエントロピーを高め、アブレーションで最大 1.9% の精度向上を生む。
- IEC は LoRA が量子化された LLM からよりリッチで弾性的な情報へアクセスできるようにすることで、精度の顕著な向上を提供する。
- IR-QLoRA はトレーニング時間オーバーヘッドを約 0.31%-0.46% 程度、追加ストレージを最小限に抑え、QA-LoRA および LLaMA2 へ一般化する結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。