Skip to main content
QUICK REVIEW

[논문 리뷰] Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Sheng Shen, Zhen Dong|arXiv (Cornell University)|2019. 09. 12.
Topic Modeling참고 문헌 42인용 수 52
한 줄 요약

논문은 Hessian 정보를 활용한 혼합 정밀도 및 그룹별 양자화 체계인 Q-BERT를 제시하며, SST-2, MNLI, CoNLL-03, SQuAD에서 가중치 압축 최대 13배에 이르면서 정확도 손실은 최대 2.3%이다. 임베딩 및 인코더 계층은 서로 다르게 양자화되며, 그룹별 양자화는 더 큰 저하를 감소시키며 SQuAD가 가장 도전적인 작업이다.

ABSTRACT

Transformer based architectures have become de-facto models used for a range of Natural Language Processing tasks. In particular, the BERT based models achieved significant accuracy gain for GLUE tasks, CoNLL-03 and SQuAD. However, BERT based models have a prohibitive memory footprint and latency. As a result, deploying BERT based models in resource constrained environments has become a challenging task. In this work, we perform an extensive analysis of fine-tuned BERT models using second order Hessian information, and we use our results to propose a novel method for quantizing BERT models to ultra low precision. In particular, we propose a new group-wise quantization scheme, and we use a Hessian based mix-precision method to compress the model further. We extensively test our proposed method on BERT downstream tasks of SST-2, MNLI, CoNLL-03, and SQuAD. We can achieve comparable performance to baseline with at most $2.3\%$ performance degradation, even with ultra-low precision quantization down to 2 bits, corresponding up to $13 imes$ compression of the model parameters, and up to $4 imes$ compression of the embedding table as well as activations. Among all tasks, we observed the highest performance loss for BERT fine-tuned on SQuAD. By probing into the Hessian based analysis as well as visualization, we show that this is related to the fact that current training/fine-tuning strategy of BERT does not converge for SQuAD.

연구 동기 및 목표

  • 엣지 배포를 위한 BERT 메모리 및 지연 감소를 허용 가능한 정확도 손실 없이 목표로 한다.
  • 두 번째 차 Hessian 정보를 사용해 미세 조정된 BERT를 분석하여 양자화 결정을 안내한다.
  • 인코더 계층에 대한 Hessian 기반 혼합 정밀도 체계와 셀프 어텐션 모듈에 대한 그룹별 양자화 체계를 제안한다.
  • 초저정밀 양자화를 통해 여러 NLP 과제에서 성능 저하를 최소화하면서 대규모 압축을 달성한다.

제안 방법

  • 각 계층의 Hessian 스펙트럼의 상위 고유값을 사용해 인코더 계층별 민감도(Hessian 기반)를 계산한다.
  • 데이터의 10%에서 계산된 Hessian 고유값 분포로부터 Omega_i = 평균(lambda_i) + 표준편차(lambda_i)로 민감도 지표를 정의한다.
  • Omega_i를 기반으로 더 민감한 계층에 더 높은 비트를 할당하여 혼합 정밀도 양자화를 적용한다.
  • Dense 행렬(예: MHSA 머리 내)을 그룹으로 나누어 각 그룹이 독립적인 양자화 범위를 갖도록 하여 그룹별 양자화를 도입한다.
  • 임베딩과 인코더 파라미터를 서로 다른 방식으로 양자화하고 양자화 인식 미세 조정을 수행한다.
  • 활성화는 균일한 8비트 양정_scheme을 사용하고 DirectQ 베이스라인과 비교해 정확도 유지 여부를 측정한다.

실험 결과

연구 질문

  • RQ1Hessian 정보(상위 고유값 및 그 분포)가 BERT 계층의 양자화 민감도와 어떻게 상관관계를 가지는가?
  • RQ2Hessian 분석에 의해 안내되는 혼합 정밀도가 BERT의 2-4비트 초저정밀 양자화에서도 정확도를 유지할 수 있는가?
  • RQ3그룹별 양자화는 BERT의 셀프 어텐션 및 피드포워드 구성요소를 양자화할 때 성능을 향상시키는가?
  • RQ4어떤 BERT 모듈(임베딩 vs 인코더 계층)이 양자화에 가장 민감하며 어떻게 양자화되어야 하는가?
  • RQ5SQuAD가 다른 NLP 작업과 비교하여 양자화에 더 도전적인 이유는 무엇인가?

주요 결과

  • Q-BERT는 SST-2, MNLI, CoNLL-03, SQuAD에서 가중치 최대 13× 압축 및 임베딩 및 활성화 크기의 4× 감소를 달성하며 정확도 손실은 최대 2.3%이다.
  • Hessian 기반 혼합 정밀도(2/3 또는 2/4 비트)가 균일 2비트 양자화보다 우수하며, 특히 더 깊은 계층에서 더 큰 이점이 나타난다; 중간 인코더 계층이 가장 민감하고 마지막 계층은 더 강건하다.
  • 128개 그룹을 갖는 그룹별 양자화가 계층별 양자화에 비해 정확도 손실을 크게 줄이며, 일정 그룹 수를 넘으면 수익이 감소한다.
  • 임베딩 양자화가 인코더 가중치보다 민감하며 위치 임베딩은 성능 보존에 특히 중요하다.
  • SQuAD는 수렴 시 Hessian 고유값 분산이 더 크고 음의 곡률이 나타나 초저정밀에서 더 큰 정확도 손실과 상관관계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.