QUICK REVIEW

[논문 리뷰] BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction

Yuhang Li, Ruihao Gong|arXiv (Cornell University)|2021. 02. 10.

Advanced Neural Network Applications참고 문헌 38인용 수 115

한 줄 요약

이 논문은 BRECQ를 소개하며, 블록 단위 재구성, 혼합 정밀도 최적화, 손실 최소화를 위한 2차 분석으로 전체 재학습 없이 경쟁적인 정확도를 달성하는 INT2 가중치 양자화 프레임워크이다.

ABSTRACT

We study the challenging task of neural network quantization without end-to-end retraining, called Post-training Quantization (PTQ). PTQ usually requires a small subset of training data but produces less powerful quantized models than Quantization-Aware Training (QAT). In this work, we propose a novel PTQ framework, dubbed BRECQ, which pushes the limits of bitwidth in PTQ down to INT2 for the first time. BRECQ leverages the basic building blocks in neural networks and reconstructs them one-by-one. In a comprehensive theoretical study of the second-order error, we show that BRECQ achieves a good balance between cross-layer dependency and generalization error. To further employ the power of quantization, the mixed precision technique is incorporated in our framework by approximating the inter-layer and intra-layer sensitivity. Extensive experiments on various handcrafted and searched neural architectures are conducted for both image classification and object detection tasks. And for the first time we prove that, without bells and whistles, PTQ can attain 4-bit ResNet and MobileNetV2 comparable with QAT and enjoy 240 times faster production of quantized models. Codes are available at https://github.com/yhhhli/BRECQ.

연구 동기 및 목표

끝-to-end 재학습 없이 고품질 PTQ를 동기 부여하고 가능하게 한다.
최소 데이터로 매우 낮은 비트 수(INT2)를 달성하는 재구성 기반 PTQ 프레임워크를 개발한다.
교차 계층 의존성과 일반화 오차의 균형을 맞추는 최적의 재구성 입자 크기를 식별한다.
하드웨어 제약을 준수하는 per-block 민감도에 의해 안내되는 혼합 정밀도 양자화를 통합한다.

제안 방법

가우스-뉴턴 및 피셔 정보로 2차 오차를 분석하여 가중치 섭동이 출력 변화에 미치는 영향을 연결한다.
네 가지 재구성 입자(망 전체, 스테이지 전체, 블록 단위, 레이어 단위)를 정의하고 블록 단위 재구성이 의존성과 일반화의 균형을 가장 잘 맞춘다는 것을 보인다.
적응적인 반올림을 사용한 가중치와 학습된 스텝 크기를 이용한 활성화에 대해 블록 단위 최적화를 통한 블록 단위 재구성을 제안한다.
전 활성 Hessian을 대각 피셔 정보로 근사하여 그래디언트 기반 중요성으로 재구성 가중치를 부여한다.
레이어 간의 대기 시간(latency) 및 크기 제약을 만족하는 혼합 정밀도 구성(2/4/8비트)을 찾기 위해 유전 알고리즘을 도입한다.
작은 캘리브레이션 세트(약 1024 샘플)를 사용하고 빠른 배치를 달성하는 현실적인 PTQ 파이프라인을 가능하게 한다.

실험 결과

연구 질문

RQ1PTQ가 다양한 아키텍처에서 무 substantial 정확도 손실 없이 가중치를 INT2로 양자화할 수 있는가?
RQ2PTQ 제약 하에서 어떤 재구성 입자 크기가 작업 성능을 가장 잘 보존하는가?
RQ32차 정보를 PTQ에서 계층/블록 단위 재구성을 안내하는 데 어떻게 활용할 수 있는가?
RQ4하드웨어 제약 하에서 PTQ를 위한 혼합 정밀도 양자화를 효과적으로 최적화할 수 있는가?

주요 결과

블록 단위 재구성은 INT2/4비트 설정에서 정확도 측면에서 망 전체, 스테이지, 레이어 단위 재구성보다 우수하다.
BRECQ는 ResNet-18, ResNet-50, MobileNetV2, RegNet 변형 및 NAS 모델 전반에서 경쟁력 있는 정확도를 가진 INT2 가중치 양자화를 가능하게 한다.
4비트 활성화 및 2/4/8비트 혼합 정밀도로 PTQ 성능이 여러 구성에서 QAT와 접근하거나 이를 상회하며 배치 시간이 크게 단축된다.
여러 아키텍처에서 표 2에 제시된 바와 같이 BRECQ를 사용해 ResNet-18의 양자화된 정확도가 FP 전체 정밀도에 가까워지게 할 수 있다.
하드웨어를 고려한 혼합 정밀도 검색은 지연(latency)/메모리 제약을 준수하면서도 정확도를 보존하는 구성을 산출한다.
재현성을 위한 코드가 프로젝트 저장소에 공개되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.