QUICK REVIEW

[논문 리뷰] Learned Threshold Pruning

Kambiz Azarian, Yash Bhalgat|arXiv (Cornell University)|2020. 02. 28.

Advanced Image and Video Retrieval Techniques참고 문헌 45인용 수 23

한 줄 요약

이 논문은 소프트 프루닝과 미분 가능한 L₀ 정규화를 사용하여 네트워크 가중치와 함께 각 레이어의 프루닝 임계값을 엔드 투 엔드로 동시에 훈련하는, 미분 가능하고 기울기 기반인 학습된 임계값 프루닝(LTP)을 소개한다. LTP는 구조적일 필요가 없는 프루닝 성능에서 최신 기술을 달성하며, 정확도 손실이 최소화된 상태에서 ResNet50을 9.1배, AlexNet을 26.4배 압축할 수 있다. 또한 계산적으로 효율적이며 배치 정규화와도 호환된다.

ABSTRACT

This paper presents a novel differentiable method for unstructured weight pruning of deep neural networks. Our learned-threshold pruning (LTP) method learns per-layer thresholds via gradient descent, unlike conventional methods where they are set as input. Making thresholds trainable also makes LTP computationally efficient, hence scalable to deeper networks. For example, it takes $30$ epochs for LTP to prune ResNet50 on ImageNet by a factor of $9.1$. This is in contrast to other methods that search for per-layer thresholds via a computationally intensive iterative pruning and fine-tuning process. Additionally, with a novel differentiable $L_0$ regularization, LTP is able to operate effectively on architectures with batch-normalization. This is important since $L_1$ and $L_2$ penalties lose their regularizing effect in networks with batch-normalization. Finally, LTP generates a trail of progressively sparser networks from which the desired pruned network can be picked based on sparsity and performance requirements. These features allow LTP to achieve competitive compression rates on ImageNet networks such as AlexNet ($26.4 imes$ compression with $79.1\%$ Top-5 accuracy) and ResNet50 ($9.1 imes$ compression with $92.0\%$ Top-5 accuracy). We also show that LTP effectively prunes modern extit{compact} architectures, such as EfficientNet, MobileNetV2 and MixNet.

연구 동기 및 목표

비구조적 가중치 프루닝에서 최적의 각 레이어 프루닝 임계값을 선택하는 문제를 해결하기 위해, 기존에는 수동으로 설정되거나 비용이 많이 드는 반복적 탐색을 통해 설정되는 임계값을 개선한다.
네트워크 가중치와 레이어별 프루닝 임계값을 함께 최적화하는, 미분 가능하고 엔드 투 엔드로 훈련 가능한 프루닝 방법을 개발한다.
특히 배치 정규화를 포함한 깊은 네트워크의 효율적이고 확장 가능한 프루닝을 가능하게 하되, L₁ 또는 L₂ 정규화에 의존하지 않는다.
스패arsity와 정확도의 상호 조정을 고려한 다양한 프루닝 수준의 모델을 연속적으로 생성하여, 유연한 배포를 가능하게 한다.
기존 방법으로는 어려운 현대적인 효율적인 아키텍처인 MobileNetV2, EfficientNet, MixNet에 대해 고압축 비율을 달성할 수 있도록 한다.

제안 방법

LTP는 기울기가 프루닝 연산을 통과할 수 있도록 허용하는, 미분 가능한 소프트 프루닝 메커니즘을 도입하여 엔드 투 엔드 훈련을 가능하게 한다.
기울기 하강을 통해 어느 가중치를 프루닝할지를 학습함으로써 흩어진 구조를 유도하는, 미분 가능한 L₀ 정규화를 제안한다.
각 레이어는 토닝 중에 최적화되는 훈련 가능한 임계값 파라미터를 갖는다. 이는 모델이 각 레이어의 최적 프루닝 수준을 자동으로 학습할 수 있도록 한다.
메서드는 하드 이진 결정을 피하기 위해, 학습 중에 학습된 임계값 이하의 가중치를 점진적으로 프루닝하는 소프트 할당 전략을 사용한다.
기존의 L₁/L₂ 페널티가 효과를 잃는 배치 정규화 레이어와도 호환되며, 이는 대신 미분 가능한 L₀ 페널티에 의존하기 때문이다.
LTP는 훈련 중에 체크포인트의 시퀀스를 생성하며, 각 체크포인트는 다른 스패arsity 수준을 나타내어, 원하는 정확도-스패arsity 조정 기반의 모델 선택을 가능하게 한다.

실험 결과

연구 질문

RQ1기울기 하강을 통해 각 레이어의 프루닝 임계값을 효과적으로 학습시킬 수 있는가? 이는 비구조적 프루닝 성능 향상에 기여하는가?
RQ2미분 가능한 L₀ 정규화는 배치 정규화가 있는 네트워크에서 L₁/L₂ 페널티가 효과를 잃는 상황에서도 효과적인 흩어진 구조 학습을 가능하게 하는가?
RQ3훈련 가능한 임계값 메커니즘은 반복적 프루닝-튜닝 방법보다 더 빠르게 높은 압축 비율을 달성할 수 있는가?
RQ4LTP는 아키텍처 수정 없이도 MobileNetV2, EfficientNet, MixNet과 같은 현대적이고 효율적인 아키텍처에 효과적으로 적용될 수 있는가?
RQ5LTP는 정확도와 스패arsity 요구 사항에 따라 선택 가능한 연속적인 프루닝 모델의 경로를 생성하는가?

주요 결과

ResNet50에 대해 LTP는 0.3%의 Top-5 정확도 손실로 9.1배의 압축을 달성하였으며, 18 에포크의 프루닝과 12 에포크의 토닝 후 92.0%의 정확도를 기록했다.
AlexNet에 대해 LTP는 정확도 손실 없이 26.4배의 압축을 달성했으며(79.1%의 Top-5 정확도), 기존 방법보다 성능과 압축 비율에서 모두 뛰어나다.
MobileNetV2에 대해 LTP는 1.33배의 압축을 달성했고, Top-1 정확도 손실이 1% 미만이었으며, 동일한 압축 비율에서 전역 프루닝보다 정확도가 9% 높았다.
LTP는 EfficientNet-B0를 3배, MixNet-S를 2배로 압축했고, Top-1 정확도 손실이 1% 미만이었다. 이는 이러한 아키텍처에 대해 보고된 최초의 프루닝 결과이다.
이 방법은 수렴 속도가 매우 빠르며, ResNet50의 프루닝에 18 에포크만 소요되었고, MixNet-S에 대해서는 추가적인 토닝이 필요 없었다. 이는 높은 계산 효율성을 보여준다.
LTP는 정확도와 성능 조정 기반의 배포에 적합한 스패arsity 기반의 연속적인 프루닝 모델의 시퀀스를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.