[논문 리뷰] CHIP: CHannel Independence-based Pruning for Compact Neural Networks
CHIP은 채널 간 독립성을 채널 간 지표로 도입하여 필터를 가지치고, CIFAR-10와 ImageNet 벤치마크에서 매개변수와 FLOPs를 크게 줄이면서도 높은 정확도를 달성한다.
Filter pruning has been widely used for neural network compression because of its enabled practical acceleration. To date, most of the existing filter pruning works explore the importance of filters via using intra-channel information. In this paper, starting from an inter-channel perspective, we propose to perform efficient filter pruning using Channel Independence, a metric that measures the correlations among different feature maps. The less independent feature map is interpreted as containing less useful information$/$knowledge, and hence its corresponding filter can be pruned without affecting model capacity. We systematically investigate the quantification metric, measuring scheme and sensitiveness$/$reliability of channel independence in the context of filter pruning. Our evaluation results for different models on various datasets show the superior performance of our approach. Notably, on CIFAR-10 dataset our solution can bring $0.90\%$ and $0.94\%$ accuracy increase over baseline ResNet-56 and ResNet-110 models, respectively, and meanwhile the model size and FLOPs are reduced by $42.8\%$ and $47.4\%$ (for ResNet-56) and $48.3\%$ and $52.1\%$ (for ResNet-110), respectively. On ImageNet dataset, our approach can achieve $40.8\%$ and $44.8\%$ storage and computation reductions, respectively, with $0.15\%$ accuracy increase over the baseline ResNet-50 model. The code is available at https://github.com/Eclipsess/CHIP_NeurIPS2021.
연구 동기 및 목표
- 교차 채널 중복성을 포착하기 위해 인터-채널 관점에서 필터 가지치기를 제안한다.
- 필터 중요도를 정량화하는 척도로 Channel Independence(CI)를 제안한다.
- CI를 계산하고 가지치기할 필터를 선택하는 저비용의 강건한 방식을 개발한다.
- CI 기반 가지치기가 데이터셋 전반에서 정확도를 유지하면서 모델 크기와 FLOPs를 감소시킨다는 것을 보여준다.
제안 방법
- Channel Independence(CI)를 특징 맵을 제거할 때의 핵 노름 변화로 정의하며, 즉 CI(A_i^l) = ||A^l||_* - ||M_i^l ∘ A^l||_* (Eq. 3).
- 각 특징 맵에 대해 CI를 계산하고 입력 샘플 전체에서 평균화한 뒤 가장 작은 CI 값을 가진 필터를 가지치기한다.
- 여러 필터 가지치를 위한 CI를 개별 CI 값을 합산하여 근사한다(Eq. 4).
- 마스크 학습을 위한 대규모 재학습 없이 원샷 가지치기 절차를 사용하고 가지치된 네트워크를 미세조정한다.
- 알고리즘 1(CHIP)은 레이어별 단계(계산, 평균화, CI 정렬, 가지치기, 그리고 미세조정)를 개략적으로 제시한다.
실험 결과
연구 질문
- RQ1교차 채널 특징 정보(인터-채널 관점)가 채널 내 방법보다 더 나은 필터 중요성을 제공할 수 있는가?
- RQ2채널 독립성이 데이터 분포와 입력 배치 전반에 걸쳐 필터 중요성에 대한 신뢰할 수 있고 강건한 프록시인가?
- RQ3결합 가능한 폭발 없이 다중 필터 가지치를 위해 CI를 효율적으로 계산하는 방법은?
- RQ4CHIP가 표준 벤치마크에서 최소한의 정확도 손실로 실질적인 압축을 달성하는가?
- RQ5제안된 원샷 CI 기반 방식 이외에 가지치기 마스크의 추가 데이터 기반 정교화가 유익한가?
주요 결과
- CIFAR-10에서 CHIP은 ResNet-56, ResNet-110, VGG-16 전반에 걸쳐 모델 크기와 FLOPs를 크게 줄이면서 최대 0.90%–0.94%의 정확도 이득을 얻는다.
- ImageNet에서 ResNet-50에 대해 저장소 40.8% 및 FLOPs 44.8% 감소와 함께 0.15%의 정확도 증가를 달성한다.
- 최첨단 가지치기 방법과 비교하여 CHIP은 비슷하거나 더 나은 압축 비율에서 경쟁력 있는 혹은 우수한 정확도를 제공한다(예: CIFAR-10 결과 및 ImageNet 비교).
- CI 기반 원샷 가지치기 방식은 배치와 입력 분포에 걸쳐 여전히 강건하며 미세조정 중 추가 마스크 학습이 거의 필요하지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.