QUICK REVIEW

[논문 리뷰] Training Quantized Nets: A Deeper Understanding

Hao Li, Soham De|arXiv (Cornell University)|2017. 06. 07.

Adversarial Robustness in Machine Learning참고 문헌 10인용 수 94

한 줄 요약

이 논문은 이론적 관점에서 양자화된 신경망의 학습을 분석하고, 확률적 반올림(SR)과 BinaryConnect를 비교하며 수렴 보장을 증명하고, 완전 양자화 방법이 탐욕적으로 최적화하는 데 왜 어려움을 겪는지 설명하며 CIFAR-10/100 및 ImageNet에서의 실험을 다룬다.

ABSTRACT

Currently, deep neural networks are deployed on low-power portable devices by first training a full-precision model using powerful hardware, and then deriving a corresponding low-precision model for efficient inference on such systems. However, training models directly with coarsely quantized weights is a key step towards learning on embedded platforms that have limited computing resources, memory capacity, and power consumption. Numerous recent publications have studied methods for training quantized networks, but these studies have mostly been empirical. In this work, we investigate training methods for quantized neural networks from a theoretical viewpoint. We first explore accuracy guarantees for training methods under convexity assumptions. We then look at the behavior of these algorithms for non-convex problems, and show that training algorithms that exploit high-precision representations have an important greedy search phase that purely quantized training methods lack, which explains the difficulty of training using low-precision arithmetic.

연구 동기 및 목표

임베디드형 저정밀 하드웨어를 위한 맨 처음부터 양자화된 신경망의 학습을 동기 부여하고 분석한다.
볼록 및 비볼록 설정에서 SR과 BC에 대한 이론적 수렴 결과를 개발한다.
부동소수점 유지(BC)가 최적화를 촉진하는 이유를 설명하고, 완전히 양자화된 방법들(SR)이 왜 잘 작동하지 않는지 설명한다.
비볼록 문제에서 SR와 BC의 거동을 비교하여 탐색-활용 다이나믹스를 이해한다.
표준 아키텍처와 데이터셋에 대한 경험적 검증을 제공하여 이론을 입증한다.

제안 방법

업데이트 중 적용되는 양자화 연산자 Q(결정론적 또는 확률적)를 사용하여 양자화된 학습을 형식화한다.
볼록 설정에서 정확도 하한이 양자화 수준 Δ와 비례하는 SR의 수렴 결과를 증명한다.
목적 함수가 강볼록 또는 제곱형일 때 BC의 향상된 거동과 오차 하한을 명시적으로 양화하는 BC의 수렴 결과를 증명한다.
비볼록 거동을 분석하여 SR의 탐욕적 활용 부족과 BC의 증가적(annealing과 유사한) 향상을 대조한다.
CIFAR-10, CIFAR-100, ImageNet에서 SR-ADAM, BC-ADAM, R-ADAM, Big SR-ADAM을 사용한 SR-ADAM의 양자화 가중치 이진화 학습 실험을 수행한다.

실험 결과

연구 질문

RQ1양자화 네트워크를 처음부터 학습할 때 SR과 BC가 수렴할 수 있는가?
RQ2볼록 및 비볼록 목표에서 SR과 BC의 정확도 하한 및 수렴 속도는 무엇인가?
RQ3왜 BC가 SR과 같은 완전 양자화 방법보다 종종 더 우수한 성능을 보이는가?
RQ4비볼록 최적화에서 SR과 BC는 탐색-활용 다이내믹스에서 어떻게 다른가?
RQ5표준 아키텍처에 대한 실험 결과가 이론적 예측과 일치하는가?

주요 결과

CIFAR-10	CIFAR-100	ImageNet	WRN-56-2	ResNet-56	ResNet-18
7.97	7.12	8.10	6.62	33.98	36.04
10.36	8.21	8.83	7.17	35.34	52.11
16.95	16.77	19.84	16.04	50.79	77.68
23.33	20.56	26.49	21.58	58.06	88.86
23.99	21.88	33.56	27.90	68.39	91.07

볼록 설정에서 SR과 BC가 최솟값에 대해 O(Δ) 정확도 이내로 수렴하며, 정확도 하한은 양자화 수준에 의존한다.
BC는 2차형(또는 거의 2차형) 문제에 대해 진짜 최솟값으로 수렴할 수 있는 반면, SR은 미세한 학습률에 관계없이 정확도 하한에 멈춘다.
비볼록 문제에서 SR은 BC가 도움이 되는 탐욕적 활용 단계를 결여하고 있으며, 학습률이 축소될수록 BC의 반복점이 최솟값 근처에 집중되는 반면 SR은 정체된다.
실험에서 BC-ADAM이 CIFAR-10/100 및 ImageNet에서 전체 정밀 ADAM과 일부 경우에 대응하는 반면, SR-ADAM과 R-ADAM은 기대에 못 미치는 경향이 있어 이론과 일치한다.
대용량 배치의 SR은 탐색 효율성을 높여 성능을 개선하는 경향이 있으며, 작은 학습률로 로컬 최솟값을 활용하지 못하는 SR의 한계를 보완한다.
SR은 네트워크와 데이터세트 전반에서 BC보다 가중치 변화를 더 많이 탐색하는 경향이 있어 탐색-활용 다이내믹스의 이론적 예측과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.