Skip to main content
QUICK REVIEW

[논문 리뷰] QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization

Xiuying Wei, Ruihao Gong|arXiv (Cornell University)|2022. 03. 11.
Advanced Neural Network Applications인용 수 44
한 줄 요약

QDROP은 PTQ 재구성 중 활성화 양자화 드롭을 무작위로 도입하여 극히 낮은 비트 PTQ(2비트 활성화) 수행을 가능하게 하고, 시각 및 언어 작업 전반에서 상당한 정확도 향상을 이끌며 새로운 최고 성능을 확립합니다.

ABSTRACT

Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)

연구 동기 및 목표

  • 사후 퀀타이제이션(PTQ)에서 활성화 양자화의 역할을 조사한다.
  • 활성화 양자화를 손실 평탄성 및 일반화와 연결하는 이론적 프레임워크를 개발한다.
  • PTQ 재구성 중 활성화 양자화를 무작위로 드롭하는 간단하고 즉시 사용 가능한 방법(QDROP)을 제안한다.
  • CNN, 시각 작업, NLP 모델 전반에 걸쳐 최첨단 PTQ 성능을 입증한다.
  • 2비트 활성화 PTQ가 현저한 정확도 이점과 함께 실용화될 수 있음을 보인다.

제안 방법

  • PTQ를 가중치와 활성화의 결합된 섭동으로 모델링한다.
  • 손실 변화가 가중치 섭동 항과 활성화 섭동 항으로 분해된 이론적 프레임워크(정리 1)를 제공한다.
  • 블록 재구성 중 서로 다른 활성화 양자화 전략을 비교하는 실증 연구를 수행한다.
  • QDROP을 제안한다: 활성화 양자화는 각 순전파마다 베르누이 확률 p(요소별)로 무작위로 드롭된다.
  • QDROP이 CNN, 트랜스포머, NLP 모델 전반에서 더 평탄한 손실 지형과 더 나은 테스트 정확도를 가져옴을 입증한다.
  • 일반적인 8/4/2비트 구성을 사용하여 ImageNet, MS COCO, GLUE, SQuAD에서 평가한다.

실험 결과

연구 질문

  • RQ1극히 낮은 비트 설정에서 PTQ 재구성에 활성화 양자화를 도입하면 정확도가 향상되는가?
  • RQ2보정 및 테스트 데이터에서 활성화 양자화가 가중치 조정과 결과 손실 지형(평탄도)에 어떤 영향을 미치는가?
  • RQ3순전파당 무작위로 활성화 양자화를 드롭하는 것이 테스트 데이터에 대한 일반화를 향상시킬 수 있는가?
  • RQ4기존 PTQ 방법과 비교하여 QDROP이 컴퓨터 비전 및 자연어 처리 벤치마크에서 어떻게 수행하는가?

주요 결과

  • PTQ 재구성 중 활성화 양자화는 매우 낮은 비트 폭에서 정확도를 크게 향상시키며, Case2/Case3가 전체 활성화 양자화(Case1)보다 우수하다.
  • 이론적 프레임워크는 손실 변화가 가중치 섭동 항과 활성화 섭동 항으로 분리됨을 보이고, 평탄도를 테스트 정확도와 연결한다.
  • QDROP은 모델과 작업 전반에서 강한 PTQ 기본값을 지속적으로 개선하여 실용적인 2비트 활성화 PTQ를 가능하게 하며, 상당한 이득을 제공한다(언급된 최대 51.49% 향상).
  • QDROP은 간단하고 즉시 사용 가능한 모듈로 CNN과 트랜스포머에서 작동하며 ImageNet, MS COCO, GLUE, SQuAD의 PTQ를 개선한다.
  • 전반적인 결과에서 QDROP은 광범위한 재훈련이나 데이터 확장 없이도 최첨단 PTQ 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.