QUICK REVIEW

[논문 리뷰] Learned Step Size Quantization

Steven K. Esser, Jeffrey L. McKinstry|arXiv (Cornell University)|2019. 02. 21.

Advanced Neural Network Applications참고 문헌 34인용 수 296

한 줄 요약

학습 가능한 스텝 사이즈 양자화(LSQ)를 도입해 활성화 및 가중치를 가진 저정밀 네트워크(2–4비트)를 훈련시키고, ImageNet에서 최첨단 정확도를 달성하며 3비트 모델이 전체 정밀도 성능에 도달하도록 한다.

ABSTRACT

Deep networks run with low precision operations at inference time offer power and space advantages over high precision alternatives, but need to overcome the challenge of maintaining high accuracy as precision decreases. Here, we present a method for training such networks, Learned Step Size Quantization, that achieves the highest accuracy to date on the ImageNet dataset when using models, from a variety of architectures, with weights and activations quantized to 2-, 3- or 4-bits of precision, and that can train 3-bit models that reach full precision baseline accuracy. Our approach builds upon existing methods for learning weights in quantized networks by improving how the quantizer itself is configured. Specifically, we introduce a novel means to estimate and scale the task loss gradient at each weight and activation layer's quantizer step size, such that it can be learned in conjunction with other network parameters. This approach works using different levels of precision as needed for a given system and requires only a simple modification of existing training code.

연구 동기 및 목표

깊은 네트워크의 정밀도 축소를 통한 처리량 및 에너지 효율 향상과 정확도 손실 없이 달성 가능성을 모티브로 삼는다.
스텝 사이즈를 모델 매개변수로 학습하여 작업 손실을 최소화하는 양자화 방법을 개발한다.
역전파 및 SGD 학습 파이프라인과의 호환성을 보장한다.
ImageNet에서 여러 아키텍처에 걸쳐 LSQ를 입증하고 기존의 양자화 방법과 비교한다.

제안 방법

실수 값을 QP와 QN에 의해 설정된 임계값으로 잘라 경계값을 갖는 스텝 사이즈 s를 사용해 이산 수준으로 매핑하는 quantizer를 정의한다.
정수화된 상태 간의 전환을 고려하는 직전통과 추정(straight-through estimation)을 통해 s의 그래디언트를 도입한다(Equation 3).
레이어별 계수 g로 스텝 사이즈 그래디언트를 스케일링해 가중치/활성화 업데이트와의 균형을 맞춘다(Equation 4).
정밀도 높은 가중치로 학습하고, 순전파/역전파 시 quantized 가중치/활성화를 사용하며 코사인 학습률 감소를 사용한다.
LSQ 스텝 사이즈를 레이어별로 데이터 통계에서 초기화하고, 사전 학습된 full-precision 모델에서 미세 조정한다.

실험 결과

연구 질문

RQ1그래디언트 기반 최적화를 통해 quantizer의 스텝 사이즈를 학습하는 것이 고정된 quantizer나 오차 최소화 quantizer보다 작업 성능을 향상시키는가?
RQ2LSQ가 2-, 3-, 4-비트 네트워크를 아키텍처에 따라 ImageNet에서 full-precision 정확도에 접근하거나 일치시킬 수 있는가?
RQ3스텝 사이즈 그래디언트 스케일링이 수렴 및 최종 정확도에 미치는 영향은 무엇인가?
RQ4양자화 오차 최소화가 높은 작업 성능에 필수적인가, 아니면 대안적 목적이 더 나은 성능을 낳는가?

주요 결과

네트워크	방법	2	3	4	8	2	3	4	8
ResNet-18	LSQ (Ours)	67.6	70.2	71.1	71.1	87.6	89.4	90.0	90.1
ResNet-18	QIL	65.7	69.2	70.1
ResNet-18	FAQ	-	-	-	-	89.1	89.3	-	-
ResNet-18	LQ-Nets	64.9	68.2	69.3		85.9	87.9	88.8	-
ResNet-18	PACT	64.4	68.1	69.2		85.6	88.2	89.0	-
ResNet-18	NICE	67.7	69.8	-	-	87.9	89.21	-	-
ResNet-18	Regularization	61.7	-	67.3	68.1	84.4	-	87.9	88.2
ResNet-34	LSQ (Ours)	71.6	73.4	74.1	74.1	90.3	91.4	91.7	91.8
ResNet-34	QIL	70.6	73.1	73.7		-	-	-	-
ResNet-34	NICE	71.7	73.5	-	-	90.8	91.4	-	-
ResNet-34	FAQ	-	73.3	73.7	-	91.3	91.6	-	-
ResNet-34	LQ-Nets	69.8	71.9	-	-	89.1	90.2	-	-
ResNet-50	LSQ (Ours)	73.7	75.8	76.7	76.8	91.5	92.7	93.2	93.4
ResNet-50	PACT	72.2	75.3	76.5		90.5	92.6	93.2	-
ResNet-50	NICE	75.1	76.5	-	-	92.3	93.3	-	-
ResNet-50	FAQ	-	76.3	76.5	-	92.9	93.1	-	-
ResNet-50	LQ-Nets	71.5	74.2	75.1	-	90.3	91.6	92.4	-
ResNet-101	LSQ (Ours)	76.1	77.5	78.3	78.1	92.8	93.6	94.0	94.0
ResNet-101	FAQ	-	-	-	-	-	-	-	-
ResNet-152	LSQ (Ours)	76.9	78.2	78.5	78.5	93.2	93.9	94.1	94.2
VGG-16bn	LSQ (Ours)	71.4	73.4	74.0	73.5	90.4	91.5	92.0	91.6

LSQ는 ImageNet에서 다수의 아키텍처를 대상으로 기존의 2-, 3-, 4-비트 방법보다 상위의 top-1/top-5 정확도를 달성한다.
3-비트 네트워크가 LSQ로 훈련될 경우 여러 경우에서 full-precision 정확도에 도달하거나 근접한다.
레이어별 스텝 사이즈 그래디언트 스케일은 수렴을 개선하고 가중치/활성화 그래디언트와의 업데이트를 균형 있게 한다.
LSQ는 양자화 오차 최소화 최적화 방식이 최적의 작업 성능을 보장하지는 않지만 양자화 오류 최소화 방식보다 더 우수한 작업 성능을 보이는 경우가 있다.
LSQ를 활용한 지식 증류는 정확도를 추가로 향상시키며, 일부 3비트 모델이 full-precision 기준선과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.