[논문 리뷰] ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression
ThiNet은 다음 계층의 통계를 사용하여 어떤 필터를 prune할지 결정하는 필터 수준 가지치기 프레임워크를 도입하며, VGG-16 및 ResNet-50과 같은 ImageNet 모델에서 최소한의 정확도 손실로 동시 가속화와 압축을 가능하게 한다.
We propose an efficient and unified framework, namely ThiNet, to simultaneously accelerate and compress CNN models in both training and inference stages. We focus on the filter level pruning, i.e., the whole filter would be discarded if it is less important. Our method does not change the original network structure, thus it can be perfectly supported by any off-the-shelf deep learning libraries. We formally establish filter pruning as an optimization problem, and reveal that we need to prune filters based on statistics information computed from its next layer, not the current layer, which differentiates ThiNet from existing methods. Experimental results demonstrate the effectiveness of this strategy, which has advanced the state-of-the-art. We also show the performance of ThiNet on ILSVRC-12 benchmark. ThiNet achieves 3.31$ imes$ FLOPs reduction and 16.63$ imes$ compression on VGG-16, with only 0.52$\%$ top-5 accuracy drop. Similar experiments with ResNet-50 reveal that even for a compact network, ThiNet can also reduce more than half of the parameters and FLOPs, at the cost of roughly 1$\%$ top-5 accuracy drop. Moreover, the original VGG-16 model can be further pruned into a very small model with only 5.05MB model size, preserving AlexNet level accuracy but showing much stronger generalization ability.
연구 동기 및 목표
- 리소스 제약 장치에서의 배치를 위한 CNN 모델 압축 동기화.
- 필터 가지치를 통한 동시 가속화와 압축을 위한 단일 프레임워크(ThiNet) 제안.
- 다음 계층 통계를 기반으로 한 최적화 문제로서의 필터 가지치기의 형식적 정의.
- 대형 벤치마크(ImageNet) 및 전달 학습 시나리오에서의 효과성 입증.
제안 방법
- 네트워크 구조를 바꾸지 않고 필터 레벨에서 가지치기를 수행하여 상용 라이브러리와의 호환성을 확보합니다.
- 정보를 이용한 다음 계층의 출력을 근사하기 위해 가지치기를 수행하는 신중함: Prudence.
- 다음 계층 입력과 출력을 연관짓는 학습 예제를 수집하여 가지치기를 안내합니다.
- 채널 선택을 그리디 알고리즘으로 해결되는 조합 최적화 문제로 공식화합니다.
- 선형 최소 제곱 재가중화를 통해 초기화를 개선하여 미세 조정의 성능을 향상시키는 선택적 가지치기 보정.
- 가지치기 후 미세 조정을 통해 성능을 회복하고 계층별로 순차적으로 반복합니다.
실험 결과
연구 질문
- RQ1주어진 계층의 가지치기 결정이 현재 계층의 통계가 아니라 다음 계층의 통계에 의해 신뢰성 있게 안내될 수 있는가?
- RQ2데이터 기반의 그리디 채널 선택 접근이 중요하지 않은 필터를 식별하는 데 얼마나 효과적인가?
- RQ3ThiNet 가지치기가 ImageNet과 같은 대규모 벤치마크 및 이전 학습 작업에서 모델 크기, FLOPs 및 정확도에 미치는 영향은 무엇인가?
주요 결과
| Model | Top-1 | Top-5 | #Param. | #FLOPs | f./b. (ms) |
|---|---|---|---|---|---|
| Original | 68.34% | 88.44% | 138.34M | 30.94B | 189.92/407.56 |
| ThiNet-Conv | 69.80% | 89.53% | 131.44M | 9.58B | 76.71/152.05 |
| Train from scratch | 67.00% | 87.45% | 131.44M | 9.58B | 76.71/152.05 |
| ThiNet-GAP | 67.34% | 87.92% | 8.32M | 9.34B | 71.73/145.51 |
| ThiNet-Tiny | 59.34% | 81.97% | 1.32M | 2.01B | 29.51/55.83 |
- VGG-16에서 ThiNet은 3.31× FLOPs 감소 및 16.63× 압축을 달성하며 Top-5 정확도 감소가 0.52%에 불과하다.
- ResNet-50에서 ThiNet은 매개변수와 FLOPs의 절반 이상을 감소시키고 대략 1%의 Top-5 정확도 감소를 보인다.
- 가지치기된 VGG-16은 5.05 MB로 축소되면서 AlexNet 수준의 정확도를 유지하고 전달 학습 과제에서 일반화가 개선되는 것을 보여준다.
- ThiNet-Tiny는 1.32M의 매개변수 감소를 달성하고도 경쟁력 있는 정확도를 유지하여 매우 컴팩트한 모델을 가능하게 한다.
- 다른 가지치기 기준과 비교할 때 ThiNet은 유사하거나 더 큰 압축에서도 더 높은 정확도를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.