QUICK REVIEW

[논문 리뷰] QuIP: 2-Bit Quantization of Large Language Models With Guarantees

Jerry Chee, Yaohui Cai|PubMed|2023. 07. 25.

Topic Modeling인용 수 24

한 줄 요약

QuIP는 인코히런스 기반의 사후 훈련 양자화 방법을 도입하여 대형 언어 모델에서 가시적인 2비트 가중치 양자화를 가능하게 하며 이론적 보장과 이전 PTQ 방법에 비해 실험적 개선을 제공합니다.

ABSTRACT

This work studies post-training parameter quantization in large language models (LLMs). We introduce quantization with incoherence processing (QuIP), a new method based on the insight that quantization benefits from <i>incoherent</i> weight and Hessian matrices, i.e., from the weights being even in magnitude and the directions in which it is important to round them accurately being unaligned with the coordinate axes. QuIP consists of two steps: (1) an adaptive rounding procedure minimizing a quadratic proxy objective; (2) efficient pre- and post-processing that ensures weight and Hessian incoherence via multiplication by random orthogonal matrices. We complement QuIP with the first theoretical analysis for an LLM-scale quantization algorithm, and show that our theory also applies to an existing method, OPTQ. Empirically, we find that our incoherence preprocessing improves several existing quantization algorithms and yields the first LLM quantization methods that produce viable results using only two bits per weight. Our code can be found at https://github.com/Cornell-RelaxML/QuIP.

연구 동기 및 목표

대형 언어 모델의 후훈련 파라미터 양자화를 통해 효율적인 추론을 동기부여하고 가능하게 한다.
적응형 반올림과 비일관성 처리를 활용하여 양자화 품질을 향상시키는 두 단계 방법인 QuIP를 제안한다.
QuIP와 OPTQ를 포함한 넓은 범주의 적응형 반올림 방법에 대한 이론적 분석을 제공한다.
다양한 모델 규모와 작업에 걸쳐 비일관성 처리가 가시적(실용적) 2비트 양자화를 만들어낸다는 것을 실증적으로 보여준다.

제안 방법

추정된 해시안 H를 사용하여 Q(Ŵ) = tr((Ŵ − W)H(Ŵ − W)ᵀ) 꼴의 이차 대리 목적함수를 최소화하는 적응형 반올림 절차.
가중치와 해시안의 비일관성을 보장하기 위해 W와 H를 임의의 직교 행렬 곱으로 곱하는 방식의 비일관성 처리.
적응형 반올림 프레임워크와 일치하도록 탐욕적 로컬 탐색 및 좌표 하강 스타일 업데이트.
일반적인 반올림 방법 계에서의 최적성과 OPTQ와의 동등성/연결에 관한 이론적 분석.
OPT 모델(125m에서 66B)에 걸친 실증 평가를 통해 개선과 대형 모델에서의 최초의 가시적(실용적) 2비트 양자화 결과를 보여준다.

실험 결과

연구 질문

RQ1대형 언어 모델의 이진(2비트) 사후 훈련 양자화를 보장과 실용적 성능으로 가시화할 수 있는가?
RQ2LDLQ/OPTQ와 같은 PTQ 방법의 정확도가 모델 규모와 작업에 걸쳐 비일관성 처리의 도입으로 향상되는가?
RQ3해시안 정보를 활용한 적응형 반올림의 이론적 역할은 무엇이며 기존 방법과의 관계는 무엇인가?
RQ4다양한 모델 크기에서 QuIP가 이전 PTQ 접근법에 비해 어떤 성능을 보이는가?

주요 결과

QuIP는 다양한 규모와 작업에서 대형 언어 모델에 대해 가시적(실용적) 2비트 per weight 양자화를 가능하게 한다.
비일관성 처리는 양자화 성능을 일관되게 향상시키고 방법 전반에 걸쳐 2비트에서 양자화 품질에 계단형 변화를 유도한다.
QuIP는 LLM 규모 양자화 알고리즘에 대한 최초의 이론적 분석을 제공하고 OPTQ와의 관련성을 보여준다.
탐욕적 및 LDLQ/OPTQ 기반 변형 중 비일관성 처리 버전이 많은 설정에서 최근접 반올림보다 우수하며 특히 2비트 양자화에서 두드러진다.
실증 결과는 모델 크기가 커질수록 2비트 양자화가 가시적 결과를 달성하며 2비트와 4비트 압축 간의 차이가 작다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.