QUICK REVIEW

[논문 리뷰] Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Sheng Shen, Zhen Dong|arXiv (Cornell University)|2019. 09. 12.

Topic Modeling참고 문헌 42인용 수 52

한 줄 요약

논문은 Hessian 정보를 활용한 혼합 정밀도 및 그룹별 양자화 체계인 Q-BERT를 제시하며, SST-2, MNLI, CoNLL-03, SQuAD에서 가중치 압축 최대 13배에 이르면서 정확도 손실은 최대 2.3%이다. 임베딩 및 인코더 계층은 서로 다르게 양자화되며, 그룹별 양자화는 더 큰 저하를 감소시키며 SQuAD가 가장 도전적인 작업이다.

ABSTRACT

Transformer based architectures have become de-facto models used for a range of Natural Language Processing tasks. In particular, the BERT based models achieved significant accuracy gain for GLUE tasks, CoNLL-03 and SQuAD. However, BERT based models have a prohibitive memory footprint and latency. As a result, deploying BERT based models in resource constrained environments has become a challenging task. In this work, we perform an extensive analysis of fine-tuned BERT models using second order Hessian information, and we use our results to propose a novel method for quantizing BERT models to ultra low precision. In particular, we propose a new group-wise quantization scheme, and we use a Hessian based mix-precision method to compress the model further. We extensively test our proposed method on BERT downstream tasks of SST-2, MNLI, CoNLL-03, and SQuAD. We can achieve comparable performance to baseline with at most $2.3\%$ performance degradation, even with ultra-low precision quantization down to 2 bits, corresponding up to $13 imes$ compression of the model parameters, and up to $4 imes$ compression of the embedding table as well as activations. Among all tasks, we observed the highest performance loss for BERT fine-tuned on SQuAD. By probing into the Hessian based analysis as well as visualization, we show that this is related to the fact that current training/fine-tuning strategy of BERT does not converge for SQuAD.

연구 동기 및 목표

엣지 배포를 위한 BERT 메모리 및 지연 감소를 허용 가능한 정확도 손실 없이 목표로 한다.
두 번째 차 Hessian 정보를 사용해 미세 조정된 BERT를 분석하여 양자화 결정을 안내한다.
인코더 계층에 대한 Hessian 기반 혼합 정밀도 체계와 셀프 어텐션 모듈에 대한 그룹별 양자화 체계를 제안한다.
초저정밀 양자화를 통해 여러 NLP 과제에서 성능 저하를 최소화하면서 대규모 압축을 달성한다.

제안 방법

각 계층의 Hessian 스펙트럼의 상위 고유값을 사용해 인코더 계층별 민감도(Hessian 기반)를 계산한다.
데이터의 10%에서 계산된 Hessian 고유값 분포로부터 Omega_i = 평균(lambda_i) + 표준편차(lambda_i)로 민감도 지표를 정의한다.
Omega_i를 기반으로 더 민감한 계층에 더 높은 비트를 할당하여 혼합 정밀도 양자화를 적용한다.
Dense 행렬(예: MHSA 머리 내)을 그룹으로 나누어 각 그룹이 독립적인 양자화 범위를 갖도록 하여 그룹별 양자화를 도입한다.
임베딩과 인코더 파라미터를 서로 다른 방식으로 양자화하고 양자화 인식 미세 조정을 수행한다.
활성화는 균일한 8비트 양정_scheme을 사용하고 DirectQ 베이스라인과 비교해 정확도 유지 여부를 측정한다.

실험 결과

연구 질문

RQ1Hessian 정보(상위 고유값 및 그 분포)가 BERT 계층의 양자화 민감도와 어떻게 상관관계를 가지는가?
RQ2Hessian 분석에 의해 안내되는 혼합 정밀도가 BERT의 2-4비트 초저정밀 양자화에서도 정확도를 유지할 수 있는가?
RQ3그룹별 양자화는 BERT의 셀프 어텐션 및 피드포워드 구성요소를 양자화할 때 성능을 향상시키는가?
RQ4어떤 BERT 모듈(임베딩 vs 인코더 계층)이 양자화에 가장 민감하며 어떻게 양자화되어야 하는가?
RQ5SQuAD가 다른 NLP 작업과 비교하여 양자화에 더 도전적인 이유는 무엇인가?

주요 결과

Q-BERT는 SST-2, MNLI, CoNLL-03, SQuAD에서 가중치 최대 13× 압축 및 임베딩 및 활성화 크기의 4× 감소를 달성하며 정확도 손실은 최대 2.3%이다.
Hessian 기반 혼합 정밀도(2/3 또는 2/4 비트)가 균일 2비트 양자화보다 우수하며, 특히 더 깊은 계층에서 더 큰 이점이 나타난다; 중간 인코더 계층이 가장 민감하고 마지막 계층은 더 강건하다.
128개 그룹을 갖는 그룹별 양자화가 계층별 양자화에 비해 정확도 손실을 크게 줄이며, 일정 그룹 수를 넘으면 수익이 감소한다.
임베딩 양자화가 인코더 가중치보다 민감하며 위치 임베딩은 성능 보존에 특히 중요하다.
SQuAD는 수렴 시 Hessian 고유값 분산이 더 크고 음의 곡률이 나타나 초저정밀에서 더 큰 정확도 손실과 상관관계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.