Skip to main content
QUICK REVIEW

[논문 리뷰] Probabilistic Binary Neural Networks

Jorn W. T. Peters, Max Welling|arXiv (Cornell University)|2018. 09. 10.
Neural Networks and Applications참고 문헌 23인용 수 45
한 줄 요약

BLRNet는 이산 가중치와 이산 활성화를 사용하여 확률적 학습과 로컬 재매개화를 통해 신경망을 훈련시키고, 테스트 시 결정론적 BIN 네트 또는 온라인 앙상블로 불확실성 추정을 가능하게 한다.

ABSTRACT

Low bit-width weights and activations are an effective way of combating the increasing need for both memory and compute power of Deep Neural Networks. In this work, we present a probabilistic training method for Neural Network with both binary weights and activations, called BLRNet. By embracing stochasticity during training, we circumvent the need to approximate the gradient of non-differentiable functions such as sign(), while still obtaining a fully Binary Neural Network at test time. Moreover, it allows for anytime ensemble predictions for improved performance and uncertainty estimates by sampling from the weight distribution. Since all operations in a layer of the BLRNet operate on random variables, we introduce stochastic versions of Batch Normalization and max pooling, which transfer well to a deterministic network at test time. We evaluate the BLRNet on multiple standardized benchmarks.

연구 동기 및 목표

  • 비트릭 가중치와 활성화를 사용하여 DNN의 메모리 및 계산을 줄이는 동기를 제시한다.
  • 비분화 가능한 이진화를 다루는 확률적 학습 프레임워크를 제안한다.
  • 랜덤 변수에 적합한 확률적 배치 정규화(BN)와 최대 풀링을 도입한다.
  • 테스트 시 단일 결정론적 이진 네트워크 또는 학습된 가중치 분포에서 뽑은 앙상블을 통해 정확도 및 불확실성 추정치를 개선한다.

제안 방법

  • 로컬 재매개화와 Concrete 분포를 사용하여 확률적 이진 신경망을 학습하고 이진 활성화를 샘플링한다.
  • 가중치가 이진인 경우 CLT에 따라 전-활성화를 가우시안으로 모델링한 뒤 이진화를 적용하여 이진 활성화를 얻는다.
  • 랜덤 변수에 대한 확률적 배치 정규화와 확률적 최대 풀링을 정의하고, 테스트 시 결정론적 BN/풀링으로 파라미터를 전달한다.
  • 가중치를 프리트레이닝된 정밀 네트워크에서 유효한 확률 범위로 클리핑하여 초기화한다.
  • deterministic BLRNet(MAP) 및 p(B)에서 다수의 가중치 인스턴스 샘플링을 통해 앙상블 BLRNet-X를 제공한다.
  • 변분 목표를 가진 베이지안 해석을 채택하고, 원한다면 가중치 불확실성을 낮추도록 분산 규제자를 사용할 수 있다.

실험 결과

연구 질문

  • RQ1이진 가중치와 이진 활성화를 비판정으로 분류 연산으로 미분하지 않는 확률적 프레임워크를 통해 효과적으로 학습시킬 수 있는가?
  • RQ2확률적 연산(BN, 최대 풀링)을 임의 변수에 대해 정의하고 테스트 시 결정론적 대응으로 변환하는 방법은 무엇인가?
  • RQ3가중치 분포에서 샘플링하는 것이 재훈련 없이도 언제든지 앙상블 예측과 불확실성 추정을 가능하게 하는가?
  • RQ4MNIST 및 CIFAR-10에 대한 확률적 BN과 가중치 전이 초기화의 성능 영향은 어느 정도인가?
  • RQ5BLRNet은 표준 벤치마크에서 전정밀도 네트와 기존의 이진 네트와 비교하여 어떤가?

주요 결과

  • BLRNet은 MNIST 및 CIFAR-10에서 기준 이진화 네트워크에 비해 경쟁력 있는 정확도를 달성하고, CIFAR-10에서 앙상블을 통해 전정밀도 성능에 근접한다.
  • BLRNet-2/5/16의 앙상블은 정확도를 향상시키고 불확실성 추정치를 제공하며, BLRNet-16은 주어진 설정에서 CIFAR-10에서 91.22%에 도달한다(비화이트).
  • 확률적 BN과 가중치 전이 초기화는 이 구성 요소들이 없는 비교 실험 대비 성능을 크게 향상시킨다.
  • 테스트 시 가중치 분포에서 샘플링한 앙상블은 재훈련 없이도 정확도 향상 및 불확실성 추정을 가능하게 한다.
  • 가중치 샘플링 후 배치 통계를 재추정하는 것이 작아도 5배치 정도의 작은 수에서도 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.