QUICK REVIEW

[논문 리뷰] Variational Dropout Sparsifies Deep Neural Networks

Dmitry Molchanov, Arsenii Ashukha|arXiv (Cornell University)|2017. 01. 19.

Advanced Neural Network Applications참고 문헌 31인용 수 348

한 줄 요약

이 논문은 Variational Dropout을 확장하여 가중치당 드롭아웃 비율을 허용하고, Additive Noise Reparameterization과 KL-divergence 근사를 강화한 희소화 능력을 도입하며, LeNet 및 VGG 유사 네트워크에서 정확도 손실 없이 최첨단 수준의 희소성을 시연한다.

ABSTRACT

We explore a recently proposed Variational Dropout technique that provided an elegant Bayesian interpretation to Gaussian Dropout. We extend Variational Dropout to the case when dropout rates are unbounded, propose a way to reduce the variance of the gradient estimator and report first experimental results with individual dropout rates per weight. Interestingly, it leads to extremely sparse solutions both in fully-connected and convolutional layers. This effect is similar to automatic relevance determination effect in empirical Bayes but has a number of advantages. We reduce the number of parameters up to 280 times on LeNet architectures and up to 68 times on VGG-like networks with a negligible decrease of accuracy.

연구 동기 및 목표

딥 뉴럴 네트워크에서 희소성을 유도하기 위한 베이지안 정규화의 동기 부여와 활용.
Automatic Relevance Determination (ARD)을 가능하게 하기 위해 DNN에서 무한 범위의 드롭아웃 비율로 Variational Dropout 확장.
희소 포스트eriors를 학습하기 위한 저분산 그라디언트 추정기와 타이트한 KL-divergence 근사 개발.
Sparse Variational Dropout가 완전 연결 및 합성곱 층에서 극단적 희소성을 달성하고 정확도 손실은 최소화되는지 입증.

제안 방법

α가 가중치별 드롭아웃 비율인 q(W|θ,α)로 가중치를 모델링합니다 (p = α/(1+α)).
곱성 잡음을 추가적 잡음으로 대체하여 기울기 분산을 줄이기 위해 Additive Noise Reparameterization을 사용합니다.
기울기 분산을 더 줄이기 위해 Local Reparameterization Trick를 적용합니다.
큰 드롭아웃 비율로 학습을 가능하게 하기 위해 전체 α 도메인에 대한 KL 발산 항의 정확한 해석과 같은 근사치를 제공합니다.
완전 연결 및 합성곱 층에서 Sparse Variational Dropout에 대한 층별 방정식을 도출하고 적용합니다(합성곱 층 공식 포함).
안정적인 희소화를 위한 warm-up 전략과 함께 SGVB를 사용한 확률적 변분 추론으로 네트워크를 학습하고 Adam으로 최적화합니다.

실험 결과

연구 질문

RQ1변분 추론을 통해 학습된 가중치별 드롭아웃 비율이 상당한 정확도 손실 없이 희소한 신경망을 생성할 수 있습니까?
RQ2타이트한 KL-divergence 근사가 드롭아웃 비율이 무한대로 확장될 때 안정적인 학습을 가능하게 합니까?
RQ3Additive Noise Reparameterization은 Sparse Variational Dropout의 기울기 분산 및 수렴에 어떤 영향을 미칩니까?
RQ4완전 연결 및 합성곱 아키텍처(예: LeNet, VGG-like, CIFAR)는 Sparse Variational Dropout로 높은 희소성을 달성하면서 성능을 유지합니까?

주요 결과

Sparse Variational Dropout은 완전 연결 및 합성곱 층 모두에서 극히 희소한 모델을 생성합니다.
이 방법은 LeNet 아키텍처에서 최첨단 희소성을 달성하고 VGG와 같은 더 큰 네트워크로 확장되며 정확도 하락은 미미합니다.
가중치별 드롭아웃 비율은 경험적 베이즈의 위험 없이 ARD와 유사한 희소성을 가능하게 합니다.
Additive Noise Reparameterization 및 Local Reparameterization Trick은 기울기 분산을 크게 줄이고 수렴 속도를 높입니다.
Sparse Variational Dropout로 학습된 네트워크는 무작위 레이블에 대해 과적합에 저항하여 일반화 특성을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.