QUICK REVIEW

[논문 리뷰] Estimating or Propagating Gradients Through Stochastic Neurons

Yoshua Bengio|arXiv (Cornell University)|2013. 05. 14.

Adversarial Robustness in Machine Learning참고 문헌 15인용 수 81

한 줄 요약

이 논문은 딥러닝에서 확률적 뉴런을 위한 두 가지 새로운 가중치 추정기 가족을 제안하며, 비가역적이고 이산적인 확률적 뉴런을 통해 역전파를 가능하게 한다. 첫 번째 방법은 편향 없고 상관관계 기반의 추정기를 사용하여, 확률적 뉴런의 출력을 손실과 관련된 편미분으로 간주한다. 두 번째 방법은 편향 있는 추정기의 저분산 교정을 학습하여, 백프로파게이션 불가능한 환경에서도 효율적인 기울기 추정을 달성한다.

ABSTRACT

Stochastic neurons can be useful for a number of reasons in deep learning models, but in many cases they pose a challenging problem: how to estimate the gradient of a loss function with respect to the input of such stochastic neurons, i.e., can we "back-propagate" through these stochastic neurons? We examine this question, existing approaches, and present two novel families of solutions, applicable in different settings. In particular, it is demonstrated that a simple biologically plausible formula gives rise to an an unbiased (but noisy) estimator of the gradient with respect to a binary stochastic neuron firing probability. Unlike other estimators which view the noise as a small perturbation in order to estimate gradients by finite differences, this estimator is unbiased even without assuming that the stochastic perturbation is small. This estimator is also interesting because it can be applied in very general settings which do not allow gradient back-propagation, including the estimation of the gradient with respect to future rewards, as required in reinforcement learning setups. We also propose an approach to approximating this unbiased but high-variance estimator by learning to predict it using a biased estimator. The second approach we propose assumes that an estimator of the gradient can be back-propagated and it provides an unbiased estimator of the gradient, but can only work with non-linearities unlike the hard threshold, but like the rectifier, that are not flat for all of their range. This is similar to traditional sigmoidal units but has the advantage that for many inputs, a hard decision (e.g., a 0 output) can be produced, which would be convenient for conditional computation and achieving sparse representations and sparse gradients.

연구 동기 및 목표

비가역적인 활성 함수를 가진 이진 확률적 뉴런을 통해 기울기를 추정하는 데 도전하는 것.
부드럽고 미분 가능한 비선형성에 의존하지 않고도 확률적 뉴런을 통해 기울기 역전파를 가능하게 하는 방법을 개발하는 것.
기존의 역전파가 실패하는 환경(예: 강화학습 또는 하드 결정을 포함한 모델)에서도 적용 가능한 편향 없고 계산적으로 효율적인 기울기 추정기를 제공하는 것.
편향 없는 추정기의 높은 분산을 줄이기 위해, 편향은 있지만 분산이 낮은 추정기를 더 적은 편향과 낮은 분산을 가진 것으로 변환하는 보정 함수를 학습하는 것.
제안된 추정기를 볼츠만 기계 및 SPSA와 같은 기존 프레임워크와 연결하여 이론적 및 실용적 관련성을 보여주는 것.

제안 방법

확률적 뉴런의 출력과 손실 기울기 사이의 상관관계를 기반으로 한 편향 없는 기울기 추정기를 제안하며, 공식 $ \mathbb{E}[X_i R] $ 를 사용한다. 여기서 $ X_i $ 는 출력이고 $ R $ 은 보상이다.
볼츠만 기계의 로그우도 기울기의 보상-상관관계 해석을 도입하여, 이가 상관관계 기반 추정기의 비정규화된 형태임을 보여준다.
편향은 있지만 분산이 낮은 추정기를 더 적은 편향과 낮은 분산을 가진 추정기로 변환하는 보정 함수를 학습하여 분산 감소 기법을 개발한다.
이 방법을 이진 확률적 뉴런과 전체 범위에서 평탄하지 않은 비선형성(예: ReLU)에 모두 적용한다.
확률적 단위를 $ X_{it} \sim \text{Bernoulli}(\sigma(a_{it})) $ 로 모델링하는 계산 그래프 프레임워크를 사용하며, 정리 1을 적용하여 기울기 추정기를 유도한다.
편류자에 대한 추정기 $ X_i^+ - X_i^- $ 와 가중치에 대한 추정기 $ X_i^+X_j^+ - X_i^-X_j^- $ 가 정확히 볼츠만 기계 기울기 추정기와 일치함을 보여준다.

실험 결과

연구 질문

RQ1소규모 변화나 미분 가능성에 대한 가정 없이도, 확률적 뉴런의 입력에 대한 손실 함수의 기울기를 추정할 수 있는가?
RQ2유한 차분이나 소규모 노이즈 근사에 의존하지 않고도, 이진 확률적 뉴런에 대한 편향 없는 기울기 추정기를 구성할 수 있는가?
RQ3계산 비용을 낮추면서도, 확률적 신경망에서 편향 없는 추정기의 높은 분산을 줄일 수 있는가?
RQ4볼츠만 기계 기울기는 상관관계 기반 기울기 추정기의 한 형태로 해석될 수 있으며, 이는 확률적 네트워크 학습에 어떤 함의를 갖는가?
RQ5제안된 상관관계 기반 추정기와 SPSA 또는 강화학습 정책 기울기와의 관계는 무엇인가?

주요 결과

소규모 변화에 대한 가정 없이도, 뉴런의 출력과 손실 간의 상관관계를 이용하여 이진 확률적 뉴런에 대한 편향 없는 기울기 추정기를 도출하였다.
역전파를 위한 백워드 패스를 피하기 때문에, 표준 역전파보다 계산 비용이 저렴하다.
볼츠만 기계의 로그우도 기울기가 상관관계 기반 추정기의 비정규화된 형태임을 보여주며, 학습 규칙에 대한 새로운 해석을 제공한다.
편향은 있지만 분산이 낮은 추정기를 더 적은 편향과 낮은 분산을 가진 것으로 변환하는 보정 함수를 학습하는 분산 감소 기법을 제안하였다. 이는 분산을 유지하면서 편향을 줄인다.
기존의 역전파가 실패하는 환경(예: 하드 임계값 단위 또는 향후 보상 추정이 필요한 강화학습)에서도 적용 가능하다.
이론적 분석을 통해 상관관계 기반 추정기는 SPSA와 본질적으로 다르며, 변화한 보상의 비율을 구하는 대신 편미분과 보상의 곱을 취한다는 점에서 다르다는 것을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.