QUICK REVIEW

[논문 리뷰] DeepHoyer: Learning Sparser Neural Network with Differentiable Scale-Invariant Sparsity Measures

Huanrui Yang, Wei Wen|arXiv (Cornell University)|2019. 08. 26.

Sparse and Compressive Sensing Techniques참고 문헌 53인용 수 41

한 줄 요약

DeepHoyer는 Hoyer 측정을 기반으로 한 미분 가능하고 스케일-불변의 희소성 규제를 도입하여 요소별 및 구조적 가지치기를 달성하고, 정확도를 희생하지 않으면서 이전 방법들보다 희소성을 향상시킵니다.

ABSTRACT

In seeking for sparse and efficient neural network models, many previous works investigated on enforcing L1 or L0 regularizers to encourage weight sparsity during training. The L0 regularizer measures the parameter sparsity directly and is invariant to the scaling of parameter values, but it cannot provide useful gradients, and therefore requires complex optimization techniques. The L1 regularizer is almost everywhere differentiable and can be easily optimized with gradient descent. Yet it is not scale-invariant, causing the same shrinking rate to all parameters, which is inefficient in increasing sparsity. Inspired by the Hoyer measure (the ratio between L1 and L2 norms) used in traditional compressed sensing problems, we present DeepHoyer, a set of sparsity-inducing regularizers that are both differentiable almost everywhere and scale-invariant. Our experiments show that enforcing DeepHoyer regularizers can produce even sparser neural network models than previous works, under the same accuracy level. We also show that DeepHoyer can be applied to both element-wise and structural pruning.

연구 동기 및 목표

거의 모든 지점에서 미분 가능하고 스케일-불변인 희소성 유도 규제를 동기화하고 개발한다.
DNN을 위한 효과적인 희소성 척도를 만들기 위해 Hoyer의 l1과 l2 노름의 비율을 활용한다.
유사한 정확도에서 DeepHoyer 규제가 이전 방법보다 더 희소한 모델을 산출함을 보여준다.
이 접근법을 요소별 및 구조적(그룹) 가지치기에 모두 확장한다.

제안 방법

요소별 가지치를 위해 Hoyer-Square (HS) 규제 H_S(W) = (sum_i |w_i|)^2 / (sum_i w_i^2) 정의.
구조적 가지치를 위한 Group-HS 규제 G_H(W) = ((sum_g ||w^(g)||_2)^2) / (||W||_2^2) 제안, 그룹 수준의 희소성을 가능하게 한다.
요소별 가지치를 위해 표준 층별 학습에 DeepHoyer 규제를 통합하여 목적함수는 min L(W) + sum_l (alpha H_S(W^(l)) + beta ||W^(l)||_2)로 한다.
채널/필터 그룹에 대한 항과 해당 계수 alpha_n, alpha_c, alpha_b, beta를 포함하는 유사한 층별 목적함수로 Group-HS를 적용한다.
SGD로 학습하고 세 단계 가지치기를 수행한다: 규제로 학습, 작은 가중치를 가지치기, 그리고 0인 요소를 고정한 상태로 미세조정.
합성곱층과 완전연결층 모두 및 ResNet / AlexNet 규모에 대한 적용 가능성을 보여준다.

실험 결과

연구 질문

RQ1미분 가능하고 스케일-불변인 희소성 규제가 DNN 가지치기에서 l1 또는 l0 기반 방법보다 더 나은 성능을 발휘할 수 있는가?
RQ2Hoyer 영감을 받은 규제가 표준 벤치마크에서 정확도 손실 없이 더 공격적인 요소별 희소성과 구조적 가지치를 가능하게 하는가?
RQ3HS와 Group-HS가 희소성, FLOPs 감소 및 정확도 측면에서 최첨단 가지치기 방법과 어떻게 비교되는가?
RQ4이 접근법이 대규모 네트워크와 데이터셋에 확장 가능한가(예: ImageNet의 AlexNet, CIFAR-10/ImageNet의 ResNet)?

주요 결과

Hoyer-Square (HS)는 MNIST LeNet 변형 및 AlexNet에서 정확도를 유지하면서 이전 방법보다 더 큰 요소별 희소성을 달성한다.
HS는 LeNet-300-100, LeNet-5 및 AlexNet 전반에서 원래 Hoyer 및 여러 l1 기반 베이스라인보다 더 높은 압축을 제공한다.
Group-HS는 상당한 구조적 가지치기 이점을 달성하여 LeNet-300-100 및 LeNet-5에서 많은 이전 방법들보다 FLOPs를 더 감소시키면서도 경쟁력 있는 정확도를 보인다.
CIFAR-10 및 ImageNet에서 Group-HS 가지치기 ResNet은 경쟁력 있는 정확도를 유지하면서도 정확도-FLOPs 트레이드오프의 파레토 프런티어를 꾸준히 상회한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.