QUICK REVIEW

[논문 리뷰] BinaryBERT: Pushing the Limit of BERT Quantization

Haoli Bai, Wei Zhang|arXiv (Cornell University)|2020. 12. 31.

Topic Modeling참고 문헌 69인용 수 45

한 줄 요약

BinaryBERT는 삼항 가중치 분할을 사용하여 BERT 가중치를 이진화하고 초기화 및 미세 조정을 통해 이진 모델을 얻으며, GLUE와 SQuAD에서 정확도 손실을 최소화하면서 약 24배 더 작은 크기를 달성한다.

ABSTRACT

The rapid development of large pre-trained language models has greatly increased the demand for model compression techniques, among which quantization is a popular solution. In this paper, we propose BinaryBERT, which pushes BERT quantization to the limit by weight binarization. We find that a binary BERT is hard to be trained directly than a ternary counterpart due to its complex and irregular loss landscape. Therefore, we propose ternary weight splitting, which initializes BinaryBERT by equivalently splitting from a half-sized ternary network. The binary model thus inherits the good performance of the ternary one, and can be further enhanced by fine-tuning the new architecture after splitting. Empirical results show that our BinaryBERT has only a slight performance drop compared with the full-precision model while being 24x smaller, achieving the state-of-the-art compression results on the GLUE and SQuAD benchmarks.

연구 동기 및 목표

대형 사전 학습 언어 모델의 엣지 배치를 가능하게 하기 위한 모델 압축을 추진합니다.
BERT의 가중치 이진화의 가능성과 도전을 조사합니다.
성능을 유지하기 위한 이진 및 전체 정밀도 모델을 연결하는 훈련 워크플로를 제안합니다.
장치 제약에 맞게 이진 모델 크기를 조정하기 위한 적응형 분할 전략을 제공합니다.

제안 방법

전체 정밀도, 삼항, 이진 BERT의 손실 분포를 분석하여 최적화 문제를 파악합니다.
BinaryBERT를 절반 너비의 삼항 모델에서 분할 등가성으로 초기화하기 위해 삼항 가중치 분할(TWS)을 도입합니다.
분할 후 분할된 매트릭스마다 서로 다른 스케일링으로 활성화 값을 양자화하고 레이어별 혹은 행별 삼항화로 적용합니다.
중간, 예측 및 미세 조정 단계에서 전체 정밀도 교사로부터의 지식 증류를 도입합니다.
자원 제약 하에서 어떤 모듈을 삼항화로, 어떤 모듈을 이진화로 선택할지 적응적으로 분할할 수 있도록 합니다.
최대 이득 최적화로, 크기/FLOP 한계 내에서 성능 극대화를 목표로 한 적응형 분할을 Demonstrate합니다.

실험 결과

연구 질문

RQ1BERT의 이진 가중치 양자화가 전체 정밀도 또는 삼항 모델에 비해 허용 가능한 성능을 달성할 수 있는가?
RQ2삼항에서 이진으로 이동할 때 관찰되는 성능 저하의 메커니즘은 무엇인가?
RQ3삼항 가중치 분할을 이용한 분할 기반 훈련 워크플로가 이진 BERT를 효과적으로 초기화하고 미세 조정할 수 있는가?
RQ4적응형 분할이 엣지 기기 제약 하에서 모델 크기, FLOPs, 정확도 간의 더 나은 트레이드오프를 제공하는가?

주요 결과

BinaryBERT는 GLUE와 SQuAD에서 전체 정밀도 BERT에 비해 작은 성능 차이를 보이며 24x 더 작다.
직접 이진 교육은 전체 정밀도 및 삼항 모델에 비해 가파르고 불규칙한 손실 분포를 보인다.
삼항 가중치 분할(TWS)은 절반 너비의 삼항 모델에서 BinaryBERT를 초기화하고 분할 후에도 성능을 유지한다.
적응형 분할은 분할 전 이진화에서 가장 정Quantization-민감한 모듈을 삼항화로 선택하여 모델 크기에 걸쳐 결과를 더욱 개선한다.
GLUE와 SQuAD 전반에 걸쳐, 특히 4비트 활성화에서 BinaryBERT의 분할 방식은 다른 이진화 방법보다 대부분의 경우에서 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.