QUICK REVIEW

[논문 리뷰] Learning Sparse Neural Networks through $L_0$ Regularization

Christos Louizos, Max Welling|arXiv (Cornell University)|2017. 12. 04.

Gaussian Processes and Bayesian Inference참고 문헌 29인용 수 149

한 줄 요약

본 논문은 학습 중 가중치를 가지치기하는 확률적 게이트를 학습하여 신경망에서 $L_{0}$ 노름 정규화를 위한 실용적 프레임워크를 제시하고, 정확한 제로를 가능하게 하며 미분 가능한 최적화를 통한 조건부 계산을 가능하게 한다.

ABSTRACT

We propose a practical method for $L_0$ norm regularization for neural networks: pruning the network during training by encouraging weights to become exactly zero. Such regularization is interesting since (1) it can greatly speed up training and inference, and (2) it can improve generalization. AIC and BIC, well-known model selection criteria, are special cases of $L_0$ regularization. However, since the $L_0$ norm of weights is non-differentiable, we cannot incorporate it directly as a regularization term in the objective function. We propose a solution through the inclusion of a collection of non-negative stochastic gates, which collectively determine which weights to set to zero. We show that, somewhat surprisingly, for certain distributions over the gates, the expected $L_0$ norm of the resulting gated weights is differentiable with respect to the distribution parameters. We further propose the \emph{hard concrete} distribution for the gates, which is obtained by "stretching" a binary concrete distribution and then transforming its samples with a hard-sigmoid. The parameters of the distribution over the gates can then be jointly optimized with the original network parameters. As a result our method allows for straightforward and efficient learning of model structures with stochastic gradient descent and allows for conditional computation in a principled way. We perform various experiments to demonstrate the effectiveness of the resulting approach and regularizer.

연구 동기 및 목표

딥 네트워크에서 계산량을 줄이고 일반화 성능을 개선하기 위해 희소성 및 모델 압축의 필요성을 제시한다.
매개변수에서 정확한 제로를 보존하는 비미분 가능하고 $L_{0}$ 노름에 대한 미분 가능한 근사치를 개발한다.
그래디언트 기반 방법을 사용하여 네트워크 매개변수와 게이트 분포 매개변수를 공동으로 최적화할 수 있게 한다.
훈련 중에 희소성을 유도할 수 있음을 보여주어 조건부 계산과 속도 향상을 가능하게 한다.
표준 벤치마크에서 경쟁력 있는 희소성-정확도 트레이드를 보여준다.

제안 방법

가중치를 theta_j = tilde_theta_j * z_j (여기서 z_j ∈ {0,1})로 재매개변수화하여 $L_{0}$를 활성 매개변수의 게이트된 개수로 바꾼다.
효율적인 그래디언트 최적화를 위해 이산 게이트를 z_j ~ Bernoulli(pi_j)로 도입하고 연속 대리자(서로에 의해)를 통해 완화한다.
재매개변수화를 가능하게 하면서 정확한 제로를 허용하기 위해, hard-sigmoid 게이트 z = clamp(s)인 보조 연속 변수 s를 사용하여 매끄러운 목적함수를 정의한다.
게이트를 모델링하기 위해 concrete(하드-컨크리트) 분포를 사용하되 이진 concrete 분포를 늘리고 hard-sigmoid를 적용하여 게이트 매개변수 phi의 미분 가능한 학습을 가능하게 한다.
$L_{0}$ 페널티를 활성 게이트의 기대 개수로 표현하고 재매개변화를 이용한 몬테카를로 추정으로 최적화한다.
선택적으로 $L_{0}$를 $L_{2}$ 정규화와 결합하고 매개변수 그룹 간에 게이트를 공유하여 그룹 희소성으로 확장한다.

실험 결과

연구 질문

RQ1가중치의 정확한 제로를 보존하면서 신경망에서 $L_{0}$ 정규화의 효율적인 최적화가 가능한가?
RQ2Hard-concrete 게이트가 훈련 중 효과적인 가지치기를 가능하게 하는 적합한 그래디언트 친화적 근사치를 제공하는가?
RQ3게이트와 가중치 매개변수의 공동 학습이 경쟁력 있는 정확도와 잠재적 계산 속도향상을 갖는 희소한 모델을 낳을 수 있는가?
RQ4제안된 접근법이 기존의 희소성 프라이어와 드롭아웃 기반 정규화와 표준 벤치마크에서 어떻게 비교되는가?

주요 결과

본 방법은 MNIST 및 CIFAR 벤치마크에서 기존 가지치기 방법과 비교하여 경쟁력 있는 테스트 정확도를 가진 희소화된 아키텍처를 산출한다.
$L_{0}$ 정규화로 훈련된 신경망은 비용에 더 큰 영향을 주는 계층(예를 들어 입력층이나 특정 네트워크의 첫 번째 완전 연결층)에서 더 공격적으로 가지치기를 수행하는 경향이 있다.
이 방법은 훈련 중에 부동소수점 연산을 점진적으로 줄일 수 있게 하여 조건부 계산과 유사한 훈련 속도 향상을 시사한다.
CIFAR 데이터셋에서 $L_{0}$ 정규화된 wide residual 네트워크는 특정 정규화 강도 아래 드롭아웃 기준선을 개선하고, 희소성으로 인한 추가 속도 향상을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.