QUICK REVIEW

[논문 리뷰] Understanding Straight-Through Estimator in Training Activation Quantized Neural Nets

Penghang Yin, Jiancheng Lyu|arXiv (Cornell University)|2019. 03. 13.

Domain Adaptation and Few-Shot Learning인용 수 120

한 줄 요약

본 논문은 적절한 직통 추정기(STER들)가 이진 활성화를 갖는 두층 네트워크에서 모집단 손실의 감소 방향을 제공하는 반면, 항등(STE)은 불안정을 야기할 수 있음을 증명한다; 실험은 양자화된 네트워크에서 클리핑된 ReLU STE가 일반적으로 가장 우수한 성능을 보임을 보여준다.

ABSTRACT

Training activation quantized neural networks involves minimizing a piecewise constant function whose gradient vanishes almost everywhere, which is undesirable for the standard back-propagation or chain rule. An empirical way around this issue is to use a straight-through estimator (STE) (Bengio et al., 2013) in the backward pass only, so that the "gradient" through the modified chain rule becomes non-trivial. Since this unusual "gradient" is certainly not the gradient of loss function, the following question arises: why searching in its negative direction minimizes the training loss? In this paper, we provide the theoretical justification of the concept of STE by answering this question. We consider the problem of learning a two-linear-layer network with binarized ReLU activation and Gaussian input data. We shall refer to the unusual "gradient" given by the STE-modifed chain rule as coarse gradient. The choice of STE is not unique. We prove that if the STE is properly chosen, the expected coarse gradient correlates positively with the population gradient (not available for the training), and its negation is a descent direction for minimizing the population loss. We further show the associated coarse gradient descent algorithm converges to a critical point of the population loss minimization problem. Moreover, we show that a poor choice of STE leads to instability of the training algorithm near certain local minima, which is verified with CIFAR-10 experiments.

연구 동기 및 목표

활성화 양자화 네트워크의 학습과 조각별 상수 활성화로 인해 발생하는 그래디언트 문제의 중요성에 대해 동기를 부여한다.
이론적 분석을 가능하게 하는 이진 활성화와 가우시안 입력을 갖는 트랙션 가능한 두-선형층 CNN 모델을 정의한다.
역전파에서 0 도함수를 대체하는 대리 STE 도함수 μ'를 도입하여 거친 그래디언트 g_μ를 형성하고, 이것이 실제 모집단 그래디언트와의 관계를 분석한다.
적절한 STE 선택이 감소 방향 및 모집단 손실의 임계점으로의 수렴을 보인다면서, 잘못된 STE(항등)가 불안정을 야기할 수 있음을 증명한다.
MNIST와 CIFAR-10에서의 STE를 비교하여 이론적 결과를 검증하고 실용적 STE 선택에 정보를 제공한다.

제안 방법

이진 활성화와 가우시안 입력 데이터를 갖는 두-선형층 CNN을 모델링한다.
모집단 손실 f(v,w)를 Z에 대한 제곱손실의 기댓값으로 정의한다.
역전파에서의 0 도함수를 대리 STE 도함수 μ'로 대체하여 거친 그래디언트 g_μ를 형성한다.
vanilla ReLU 및 클리핑된 ReLU STE의 경우, 음의 기댓값 거친그래디언트가 모집단 그래디언트와 상관 관계를 가지며 감소 방향을 산출함을 증명한다.
항등 STE는 감소 방향을 보장하지 않으며 특정 국소 최솟값 근처에서 불안정해질 수 있음을 보인다.
거친 그래디언트 하강이 모집단 손실의 임계점으로 수렴한다는 수렴 결과를 제공한다.

실험 결과

연구 질문

RQ1적절한 STE 선택이 활성화 양자화 네트워크에서 모집단 손실의 감소 방향을 제시하는가?
RQ2다양한 STE에 따른 기대 거친그래디언트가 실제 모집단 그래디언트와 어떻게 상관관계가 있는가?
RQ3STE를 이용한 거친 그래디언트 하강이 임계점으로 수렴할 수 있는가, 어떤 조건에서 가능한가?
RQ42비트 및 4비트 활성화를 사용하는 표준 벤치마크(MNIST, CIFAR-10)에서 서로 다른 STE 선택이 실험적으로 어떤 성능을 보이는가?

주요 결과

적절한 STE 선택(자유 ReLU 및 클리핑 ReLU)은 모집단 손실에 대한 음의 기대 거친그래디언트를 산출하여 감소 방향과 일치한다.
항등 STE는 감소를 보장하지 않으며 특정 국소 최솟값 근처에서 불안정성을 초래할 수 있다.
ReLU 또는 클리핑 ReLU를 사용한 거친 그래디언트 하강은 적절한 학습률 하에서 모집단 손실의 임계점으로 수렴한다.
나쁜 STE는 불안정성과 좋은 최솟값으로부터의 반발을 초래할 수 있으며 CIFAR-10 실험과 일치한다.
실험 결과, 깊은 네트워크에서 클리핑된 ReLU STE가 일반적으로 가장 우수한 성능을 보이며, 얕은 네트워크(예: LeNet-5)에서는 vanilla ReLU에 근접하고, 항등 STE가 최악의 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.