QUICK REVIEW

[논문 리뷰] Bayesian Bits: Unifying Quantization and Pruning

Mart van Baalen, Christos Louizos|arXiv (Cornell University)|2020. 05. 14.

Advanced Neural Network Applications참고 문헌 39인용 수 77

한 줄 요약

Bayesian Bits 는 학습 가능한 게이트를 가진 새로운 잔차-양자화 분해와 함께 그래디언트 기반 최적화를 통해 혼합 정밀도 양자화와 가지치기를 공동으로 학습하며, 하드웨어 친화적 비트 폭과 정확도-효율성의 트레이드오프를 기존의 정적 비트 폭 기준보다 개선한다.

ABSTRACT

We introduce Bayesian Bits, a practical method for joint mixed precision quantization and pruning through gradient based optimization. Bayesian Bits employs a novel decomposition of the quantization operation, which sequentially considers doubling the bit width. At each new bit width, the residual error between the full precision value and the previously rounded value is quantized. We then decide whether or not to add this quantized residual error for a higher effective bit width and lower quantization noise. By starting with a power-of-two bit width, this decomposition will always produce hardware-friendly configurations, and through an additional 0-bit option, serves as a unified view of pruning and quantization. Bayesian Bits then introduces learnable stochastic gates, which collectively control the bit width of the given tensor. As a result, we can obtain low bit solutions by performing approximate inference over the gates, with prior distributions that encourage most of them to be switched off. We experimentally validate our proposed method on several benchmark datasets and show that we can learn pruned, mixed precision networks that provide a better trade-off between accuracy and efficiency than their static bit width equivalents.

연구 동기 및 목표

공동 가지치기와 혼합 정밀도 양자화를 통해 추론 비용을 줄이는 것을 목표로 한다.
하드웨어 친화적 비트 폭을 노출시키는 양자화 분해를 소개한다.
베이지안 게이트와 변분 목표를 개발하여 비트 폭과 가지치기를 함께 학습한다.
게이트를 위한 STE에서 영감을 받은 그래디언트 추정기와 임계화를 사용한 실용적 최적화 방식을 제시한다.
벤치마크에서 향상된 정확도/효율성 트레이드오프를 입증하고 엔드-투-엔드 및 후훈련(post-training) 변형을 제시한다.

제안 방법

양자화를 연속적인 잔차 양자화로 분해하고 비트 폭을 2, 4, 8, 16, 32로 두 배로 확장한다.
잔차를 양자화하고 이를 더해 고정밀 양자화 값을 형성한다.
각 잔차에 대해 이진 게이트 z를 도입하여 상위 비트 잔차의 추가 여부를 제어하고 제로-비트 가지치를 가능하게 한다.
게이트 학습을 저비트 폭을 선호하는 자기회귀 사전과 포스트리어를 갖는 변분 추론으로 프레이밍한다.
더 높은 비트 잔차의 포함을 벌칙하는 L0 유사 정규화항에 가까운 실용적 목적함수를 도출하고, 그래디언트 기반 최적화를 위해 하드-콘크리트 이완(hard-concrete relaxations)을 사용한다.
메모리 관리용 그래디언트 체크포인팅, 입력에 대한 PACT 기반 클리핑, 반올림을 통한 역전파를 위한 STE를 사용한 훈련을 설명한다.

실험 결과

연구 질문

RQ1잔차 기반의 하드웨어 친화적 분해가 혼합 정밀도 양자화를 위한 모든 파워-오브-투 비트 폭을 노출하는가?
RQ2잔차에 대한 학습 가능한 게이트가 공동 가지치기와 양자화를 통해 정확도와 계산 간의 트레이드를 효과적으로 수행하는가?
RQ3베이지안/사전 규제 목표가 정적 비트 폭 baselines보다 더 나은 정확도-효율성 트레이드오프를 제공하는가?
RQ4标准 벤치마크에서 엔드-투-엔드 및 후훈련 설정에서 접근 방식이 실행 가능한가?

주요 결과

방법	# 비트 W/A	정확도(%)	상대 GBOPs(%)
FP32	32/32	99.36	100
TWN	2/32	99.35	5.74
LR-Net	1/32	99.47	2.99
RQ	8/8	-	6.25
RQ	4/4	-	1.56
RQ	2/8	99.37	0.52
WAGE	2/8	99.60	1.56
DQ*	Mixed	-	0.48
DQ - restricted*	Mixed	-	0.54
Bayesian Bits μ=0.01	Mixed	99.30 ±0.03	0.36 ±0.01	93.23 ±0.10	0.51 ±0.03

Bayesian Bits 는 MNIST 및 CIFAR-10에서 여러 기준선보다 정확도와 계산 효율성(BOPs) 사이의 트레이드오프를 더 좋게 달성한다.
ImageNet의 ResNet18 및 MobileNetV2에서 Bayesian Bits 는 고정 비트 기준선 및 다른 양자화 방법에 비해 우수한 정확도-GBOP 트레이드오프를 제공한다.
전역 정규화 매개변수 mu를 변화시키면 희소성/비트 폭이 조절되어 일부 조건에서 유지된 정확도로 highly 컴프리시드한 네트워크를 얻을 수 있다.
본 방법은 엔드-투-엔드 미세조정과 포스트 트레이닝 혼합 정밀 양자화를 지원하며 경쟁력 있는 성능을 보인다.
게이트는 해석 가능한 동작을 보이며, 종종 핵심 계층은 보존하고 초기/마지막 계층은 더 낮은 비트 폭으로 가지치기하는 경향을 보인다.
이 접근법은 가지치기와 양자화를 하나의 확률적 프레임워크로 통합하고 실용적인 최적화 경로를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.