[논문 리뷰] Towards Optimal Structured CNN Pruning via Generative Adversarial Learning
논문은 제너레이티브 적대 학습(GAL)을 도입하여 엔드-투-엔드, 레이블-프리 방식으로 CNN을 가지치기(prune)하며, 채널, 분기, 블록을 함께 가지치기하는 희소 소프트 마스크를 학습하여 강력한 압축과 속도 향상을 얻는다.
Structured pruning of filters or neurons has received increased focus for compressing convolutional neural networks. Most existing methods rely on multi-stage optimizations in a layer-wise manner for iteratively pruning and retraining which may not be optimal and may be computation intensive. Besides, these methods are designed for pruning a specific structure, such as filter or block structures without jointly pruning heterogeneous structures. In this paper, we propose an effective structured pruning approach that jointly prunes filters as well as other structures in an end-to-end manner. To accomplish this, we first introduce a soft mask to scale the output of these structures by defining a new objective function with sparsity regularization to align the output of baseline and network with this mask. We then effectively solve the optimization problem by generative adversarial learning (GAL), which learns a sparse soft mask in a label-free and an end-to-end manner. By forcing more scaling factors in the soft mask to zero, the fast iterative shrinkage-thresholding algorithm (FISTA) can be leveraged to fast and reliably remove the corresponding structures. Extensive experiments demonstrate the effectiveness of GAL on different datasets, including MNIST, CIFAR-10 and ImageNet ILSVRC 2012. For example, on ImageNet ILSVRC 2012, the pruned ResNet-50 achieves 10.88\% Top-5 error and results in a factor of 3.7x speedup. This significantly outperforms state-of-the-art methods.
연구 동기 및 목표
- 다단계의 계층별 방법과 비교하여도 효율적이고 레이블-프리한 구조적 가지치기를 촉진한다.
- CNN의 이질적 구조를 희소화하고 가지치기하기 위한 소프트 마스크 프레임워크를 제안한다.
- 생성기와 판별기를 활용한 엔드-투-엔드 GAL 최적화를 개발하여 불필요한 구조를 제거한다.
제안 방법
- 가지치기 가능한 구조의 출력을 스케일하는 희소 소프트 마스크 m를 도입한다.
- 생성기(가지치기된 네트워크)와 판별기로 구성된 적대적 목표를 형성하여 가지치기 출력과 기준 출력(데이터 손실은 MSE)을 일치시킨다.
- SGD로 판별기를 업데이트하고 L1 희소성을 가진 m으로 FISTA를 사용하여 가지치기를 수행하는 교대 GAN+FISTA 접근 방식으로 최적화를 해결한다.
- m_i → 0일 때 구조 제거를 가능하게 하는 m의 L1 희소성 페널티를 사용한다.
- 가중치와 판별기에 L1/L2 또는 적대적 정규화와 같은 정규화를 적용하여 게임의 균형을 유지한다.
- FISTA를 사용하여 정확히 0인 마스크 항목을 효율적으로 얻는다.
실험 결과
연구 질문
- RQ1소프트하고 학습 가능한 마스크가 엔드-투-엔드, 레이블-프리 방식으로 이질적인 CNN 구조(채널, 분기, 블록)를 동시에 가지치기할 수 있는가?
- RQ2L1 희소 마스크와 FISTA를 활용한 생성적 적대 학습이 전통적인 다단계 가지치기에 비해 더 우수한 압축성과 정확도 유지를 제공하는가?
- RQ3GAL은 데이터셋(MNIST, CIFAR-10, ImageNet) 및 아키텍처(LeNet, VGG, DenseNet, GoogLeNet, ResNet, DenseNet-40, ResNet 변형)에서 어떻게 수행되는가?
주요 결과
- ImageNet에서 GAL로 가지치기된 ResNet-50은 top-5 오류 10.88%와 3.7× 속도 향상을 달성한다.
- GAL은 MNIST, CIFAR-10, ImageNet에서 채널, 분기, 블록 등 다양한 구조에서 강력한 가지치기 효율을 보여준다.
- 구성요소 제거 실험은 판별기에서 적대적 정규화가 L1/L2보다 가지치기 효과를 향상시킴을 보였다.
- ResNet-50에서 블록과 채널의 공동 가지치(GAL-0.5-joint)가 블록이나 채널만 가지치기보다 더 높은 속도향상과 압축률을 보인다.
- GAL은 여러 네트워크와 데이터셋에서 종종 최첨단 가지치기 방법과 비슷하거나 이를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.