Skip to main content
QUICK REVIEW

[논문 리뷰] EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Mengzhao Chen, Wenqi Shao|arXiv (Cornell University)|2024. 07. 10.
Topic Modeling인용 수 6
한 줄 요약

EfficientQAT은 대형 언어 모델의 효율적인 2-비트 양자화 성능을 달성하면서 대규모 언어 모델을 효율적으로 압축하기 위한 두 단계 양자화 프레임워크(Block-AP 및 E2E-QP)을 도입합니다. 70B 모델에서 강력한 2비트 양자화 성능과 비교적 작은 정확도 손실, 훈련 메모리 사용 감소를 달성합니다.

ABSTRACT

Large language models (LLMs) are crucial in modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it is impractical due to substantial training resources. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a more feasible QAT algorithm. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). To the best of our knowledge, Block-AP is the first method to enable direct training of all parameters in a block-wise manner, reducing accuracy loss in low-bit scenarios by enhancing the solution space during optimization. E2E-QP then trains only the quantization parameters (step sizes) end-to-end, further improving the performance of quantized models by considering interactions among all sub-modules. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3 points accuracy degradation compared to the full precision (69.48 vs. 72.41). Code is available at https://github.com/OpenGVLab/EfficientQAT.

연구 동기 및 목표

  • 대형 언어 모델(LLMs)의 양자화-학습의 높은 메모리 및 훈련 비용 문제를 해결한다.
  • 초기화가 잘 되고 배포 중 최소 매개변수만 훈련하는 두 단계의 메모리 효율적 QAT 방법을 개발한다.
  • 7B에서 70B 매개변수의 기본 모델, 지시문-미세조정, 다중 모달 LLM에 걸친 탄력성과 성능 향상을 입증한다.

제안 방법

  • Block-AP를 통해 각 트랜스포머 블록을 블록 단위 재구성으로 학습하여 전체 LLM을 재훈련하지 않고도 전체 매개변수 학습을 가능하게 하는 블록 단위 파라미터 학습을 제안한다.
  • quantization 파라미터를 끝까지 고정하고(스텝 크기 및 선택적으로 제로 포인트) 양자화 파라미터만 끝까지 최적화하는 End-to-End Training of Quantization Parameters(E2E-QP)를 도입한다.
  • 표준 균일 양자화를 사용하여 학습된 s(스케일) 및 z(제로 포인트)로 가중치를 양자화하고 계산 그래프에 통합하여 그래디언트 기반 최적화를 수행한다.
  • 양자화 그룹 내에서 s와 z를 공유하여 메모리 및 학습 가능한 매개변수 수를 줄인다.
  • Block-AP가 강력한 초기화를 제공하고, E2E-QP가 양자화 백본에서 성능을 더 엄격하게 개선한다는 점을 입증한다.
(b) Q-PEFT comparisons
(b) Q-PEFT comparisons

실험 결과

연구 질문

  • RQ1Block-AP가 이후 LLM의 양자화-학습을 위한 메모리 효율적이고도 효과적인 초기화를 제공할 수 있는가?
  • RQ2Block-AP로 초기화된 백본 위에 E2E-QP로 양자화 파라미터(s 및 z)를 끝까지 학습하는 것이 2-, 3-, 4비트 양자화에서 우수한 정확도와 효율성을 제공하는가?
  • RQ3EfficientQAT가 2–4비트에서 7B–70B까지의 기본, 지시문-미세조정, 다중 모달 LLM에 대해 PTQ, QAT 및 Q-PEFT 기초선 대비 어떻게 성능하는가?

주요 결과

  • EfficientQAT는 로우 비트 양자화에서도 강력한 성능을 달성하며, Llama-2-70B에서 약 3%의 정확도 저하(72.41에서 69.48로 감소)를 포함합니다.
  • Block-AP는 강력한 초기화를 제공하고, E2E-QP와 결합될 때 기존 방법들보다 향상된 양자화 성능을 제공합니다.
  • E2E-QP는 양자화 파라미터만 학습하여 훈련 중 메모리 사용을 대폭 감소시키며(예: 2비트 70B의 경우 단일 A100-80GB GPU에서 34.2 GB),
  • EfficientQAT는 2–4비트에서 기본, 지시문-미세조정, 다중 모달 LLM에 대해 기존 QAT 및 Q-PEFT 기초선보다 우수한 성능을 보입니다.
  • 추론 속도 향상은 균일 양자화를 통해 달성되며, 대형 모델의 선형 계층에서 INT2 순전파 속도가 최대 4.4배까지 증가합니다.
(a) inference speed comparisons
(a) inference speed comparisons

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.