[논문 리뷰] BinaryBERT: Pushing the Limit of BERT Quantization
BinaryBERT는 삼항 가중치 분할을 사용하여 BERT 가중치를 이진화하고 초기화 및 미세 조정을 통해 이진 모델을 얻으며, GLUE와 SQuAD에서 정확도 손실을 최소화하면서 약 24배 더 작은 크기를 달성한다.
The rapid development of large pre-trained language models has greatly increased the demand for model compression techniques, among which quantization is a popular solution. In this paper, we propose BinaryBERT, which pushes BERT quantization to the limit by weight binarization. We find that a binary BERT is hard to be trained directly than a ternary counterpart due to its complex and irregular loss landscape. Therefore, we propose ternary weight splitting, which initializes BinaryBERT by equivalently splitting from a half-sized ternary network. The binary model thus inherits the good performance of the ternary one, and can be further enhanced by fine-tuning the new architecture after splitting. Empirical results show that our BinaryBERT has only a slight performance drop compared with the full-precision model while being 24x smaller, achieving the state-of-the-art compression results on the GLUE and SQuAD benchmarks.
연구 동기 및 목표
- 대형 사전 학습 언어 모델의 엣지 배치를 가능하게 하기 위한 모델 압축을 추진합니다.
- BERT의 가중치 이진화의 가능성과 도전을 조사합니다.
- 성능을 유지하기 위한 이진 및 전체 정밀도 모델을 연결하는 훈련 워크플로를 제안합니다.
- 장치 제약에 맞게 이진 모델 크기를 조정하기 위한 적응형 분할 전략을 제공합니다.
제안 방법
- 전체 정밀도, 삼항, 이진 BERT의 손실 분포를 분석하여 최적화 문제를 파악합니다.
- BinaryBERT를 절반 너비의 삼항 모델에서 분할 등가성으로 초기화하기 위해 삼항 가중치 분할(TWS)을 도입합니다.
- 분할 후 분할된 매트릭스마다 서로 다른 스케일링으로 활성화 값을 양자화하고 레이어별 혹은 행별 삼항화로 적용합니다.
- 중간, 예측 및 미세 조정 단계에서 전체 정밀도 교사로부터의 지식 증류를 도입합니다.
- 자원 제약 하에서 어떤 모듈을 삼항화로, 어떤 모듈을 이진화로 선택할지 적응적으로 분할할 수 있도록 합니다.
- 최대 이득 최적화로, 크기/FLOP 한계 내에서 성능 극대화를 목표로 한 적응형 분할을 Demonstrate합니다.
실험 결과
연구 질문
- RQ1BERT의 이진 가중치 양자화가 전체 정밀도 또는 삼항 모델에 비해 허용 가능한 성능을 달성할 수 있는가?
- RQ2삼항에서 이진으로 이동할 때 관찰되는 성능 저하의 메커니즘은 무엇인가?
- RQ3삼항 가중치 분할을 이용한 분할 기반 훈련 워크플로가 이진 BERT를 효과적으로 초기화하고 미세 조정할 수 있는가?
- RQ4적응형 분할이 엣지 기기 제약 하에서 모델 크기, FLOPs, 정확도 간의 더 나은 트레이드오프를 제공하는가?
주요 결과
- BinaryBERT는 GLUE와 SQuAD에서 전체 정밀도 BERT에 비해 작은 성능 차이를 보이며 24x 더 작다.
- 직접 이진 교육은 전체 정밀도 및 삼항 모델에 비해 가파르고 불규칙한 손실 분포를 보인다.
- 삼항 가중치 분할(TWS)은 절반 너비의 삼항 모델에서 BinaryBERT를 초기화하고 분할 후에도 성능을 유지한다.
- 적응형 분할은 분할 전 이진화에서 가장 정Quantization-민감한 모듈을 삼항화로 선택하여 모델 크기에 걸쳐 결과를 더욱 개선한다.
- GLUE와 SQuAD 전반에 걸쳐, 특히 4비트 활성화에서 BinaryBERT의 분할 방식은 다른 이진화 방법보다 대부분의 경우에서 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.