Skip to main content
QUICK REVIEW

[논문 리뷰] Variational Dropout Sparsifies Deep Neural Networks

Dmitry Molchanov, Arsenii Ashukha|arXiv (Cornell University)|2017. 01. 19.
Advanced Neural Network Applications참고 문헌 31인용 수 348
한 줄 요약

이 논문은 Variational Dropout을 확장하여 가중치당 드롭아웃 비율을 허용하고, Additive Noise Reparameterization과 KL-divergence 근사를 강화한 희소화 능력을 도입하며, LeNet 및 VGG 유사 네트워크에서 정확도 손실 없이 최첨단 수준의 희소성을 시연한다.

ABSTRACT

We explore a recently proposed Variational Dropout technique that provided an elegant Bayesian interpretation to Gaussian Dropout. We extend Variational Dropout to the case when dropout rates are unbounded, propose a way to reduce the variance of the gradient estimator and report first experimental results with individual dropout rates per weight. Interestingly, it leads to extremely sparse solutions both in fully-connected and convolutional layers. This effect is similar to automatic relevance determination effect in empirical Bayes but has a number of advantages. We reduce the number of parameters up to 280 times on LeNet architectures and up to 68 times on VGG-like networks with a negligible decrease of accuracy.

연구 동기 및 목표

  • 딥 뉴럴 네트워크에서 희소성을 유도하기 위한 베이지안 정규화의 동기 부여와 활용.
  • Automatic Relevance Determination (ARD)을 가능하게 하기 위해 DNN에서 무한 범위의 드롭아웃 비율로 Variational Dropout 확장.
  • 희소 포스트eriors를 학습하기 위한 저분산 그라디언트 추정기와 타이트한 KL-divergence 근사 개발.
  • Sparse Variational Dropout가 완전 연결 및 합성곱 층에서 극단적 희소성을 달성하고 정확도 손실은 최소화되는지 입증.

제안 방법

  • α가 가중치별 드롭아웃 비율인 q(W|θ,α)로 가중치를 모델링합니다 (p = α/(1+α)).
  • 곱성 잡음을 추가적 잡음으로 대체하여 기울기 분산을 줄이기 위해 Additive Noise Reparameterization을 사용합니다.
  • 기울기 분산을 더 줄이기 위해 Local Reparameterization Trick를 적용합니다.
  • 큰 드롭아웃 비율로 학습을 가능하게 하기 위해 전체 α 도메인에 대한 KL 발산 항의 정확한 해석과 같은 근사치를 제공합니다.
  • 완전 연결 및 합성곱 층에서 Sparse Variational Dropout에 대한 층별 방정식을 도출하고 적용합니다(합성곱 층 공식 포함).
  • 안정적인 희소화를 위한 warm-up 전략과 함께 SGVB를 사용한 확률적 변분 추론으로 네트워크를 학습하고 Adam으로 최적화합니다.

실험 결과

연구 질문

  • RQ1변분 추론을 통해 학습된 가중치별 드롭아웃 비율이 상당한 정확도 손실 없이 희소한 신경망을 생성할 수 있습니까?
  • RQ2타이트한 KL-divergence 근사가 드롭아웃 비율이 무한대로 확장될 때 안정적인 학습을 가능하게 합니까?
  • RQ3Additive Noise Reparameterization은 Sparse Variational Dropout의 기울기 분산 및 수렴에 어떤 영향을 미칩니까?
  • RQ4완전 연결 및 합성곱 아키텍처(예: LeNet, VGG-like, CIFAR)는 Sparse Variational Dropout로 높은 희소성을 달성하면서 성능을 유지합니까?

주요 결과

  • Sparse Variational Dropout은 완전 연결 및 합성곱 층 모두에서 극히 희소한 모델을 생성합니다.
  • 이 방법은 LeNet 아키텍처에서 최첨단 희소성을 달성하고 VGG와 같은 더 큰 네트워크로 확장되며 정확도 하락은 미미합니다.
  • 가중치별 드롭아웃 비율은 경험적 베이즈의 위험 없이 ARD와 유사한 희소성을 가능하게 합니다.
  • Additive Noise Reparameterization 및 Local Reparameterization Trick은 기울기 분산을 크게 줄이고 수렴 속도를 높입니다.
  • Sparse Variational Dropout로 학습된 네트워크는 무작위 레이블에 대해 과적합에 저항하여 일반화 특성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.