QUICK REVIEW

[논문 리뷰] Discrimination-aware Channel Pruning for Deep Neural Networks

Zhuangwei Zhuang, Mingkui Tan|arXiv (Cornell University)|2018. 10. 28.

Advanced Neural Network Applications참고 문헌 44인용 수 162

한 줄 요약

차별 인식 채널 프루닝(DCP)은 중간 계층에 차별 인식 손실을 도입하여 채널 프루닝을 안내하고, 판별력과 특징 맵 재구성 간의 균형을 맞추며, ImageNet과 CIFAR 데이터셋에서 주어진 가지치기 비율에서 정확도 향상을 보여준다.

ABSTRACT

Channel pruning is one of the predominant approaches for deep model compression. Existing pruning methods either train from scratch with sparsity constraints on channels, or minimize the reconstruction error between the pre-trained feature maps and the compressed ones. Both strategies suffer from some limitations: the former kind is computationally expensive and difficult to converge, whilst the latter kind optimizes the reconstruction error but ignores the discriminative power of channels. To overcome these drawbacks, we investigate a simple-yet-effective method, called discrimination-aware channel pruning, to choose those channels that really contribute to discriminative power. To this end, we introduce additional losses into the network to increase the discriminative power of intermediate layers and then select the most discriminative channels for each layer by considering the additional loss and the reconstruction error. Last, we propose a greedy algorithm to conduct channel selection and parameter optimization in an iterative way. Extensive experiments demonstrate the effectiveness of our method. For example, on ILSVRC-12, our pruned ResNet-50 with 30% reduction of channels even outperforms the original model by 0.39% in top-1 accuracy.

연구 동기 및 목표

재구성 오차의 최소화만이 아니라 계층 간에 판별력을 보존하는 효율적인 채널 프루닝을 고취한다.
선택된 중간 계층에 삽입된 차별 인식 손실을 도입하여 국지적 판별 표현을 강화한다.
채널 프루닝 문제를 2,0-노름을 사용한 형식으로 공식화하고 그리디 최적화 접근으로 해결한다.
DCP가 유사한 가지치기 비율에서 최첨단 프루닝 방법들과 더 낫거나 비슷한 정확도를 산출함을 보인다.
대규모(ILSVRC-12) 및 소규모 데이터셋(CIFAR-10, LFW)에서 방법의 효과를 입증한다.

제안 방법

선택된 중간 계층에 다수의 차별 인식 손실을 삽입하여 판별력을 강화한다.
선택된 L(W)=L_M(W)+λ L_S^p(W)로 재구성 손실과 차별 인식 손실의 균형을 맞추는 합동 목적 함수를 사용한다.
채널 프루닝을 l2,0-노름 제약 최적화로 공식화하고, 그래디언트 크기로 채널을 반복적으로 선택하는 그리디 알고리즘으로 해결한다.
해당 단계에서 차별 인식 손실로 미세조정한 다음, L_S^p와 L_M을 모두 사용하여 해당 단계의 계층을 가지치기한다.
두 단계의 그리디 절차를 사용한다: (i) 채널당 그래디언트 노름을 최대화하여 채널을 선택, (ii) 선택된 채널에 대해 보완 분을 0으로 만든 상태에서 W를 SGD로 최적화한다.
상대 손실 개선을 기준으로 하는 정지 기준을 채택하여 각 계층의 가지치기 수준을 자동으로 결정한다.

실험 결과

연구 질문

RQ1중간 계층의 차별 인식 손실이 재구성 기반 기준을 넘어서는 진정한 판별력을 가진 채널을 신뢰성 있게 식별할 수 있는가?
RQ2재구성 손실과 차별 인식 손실을 혼합하는 것이 기존 방법과 비교하여 심층 네트워크의 가지치기 성능을 향상시키는가?
RQ3다양한 가지치기 비율에서 DCP가 아키텍처(ResNet-18/50, VGGNet)와 데이터셋(CIFAR-10, ILSVRC-12, LFW)에서 어떻게 성능을 발휘하는가?
RQ4트레이드오프 매개변수 λ와 정지 조건이 가지치기 결과와 정확도에 미치는 영향은 무엇인가?

주요 결과

DCP로 가지치기된 ResNet-50은 ILSVRC-12에서 채널 수를 30% 줄이고 기준선 대비 상위 1 정확도를 0.39% 향상시킨다.
ResNet-50에서 50% 가지치기 시 DCP는 ThiNet을 상위 1%에서 0.81%, 상위 5%에서 0.51% 더 능가한다.
CIFAR-10에서 DCP는 VGGNet 및 ResNet-56에 대해 몇몇 기준선보다 더 높은 정확도와 더 큰 매개변수/연산수 감소를 달성한다.
CIFAR-10에서 DCP로 가지치기된 MobileNet 변종은 30% 채널 가지치기 시 임의 가지치기 및 기본 방법보다 정확도가 향상된다.
LFW 실험에서 가지치기된 SphereNet-4 모델은 매개변수와 FLOPs를 크게 줄이면서도 경쟁력 있는 정확도를 달성한다(예: LFW 98.30%에서 3.66배 가속).
분해 연구는 더 큰 λ(차별 인식 손실 강조)가 일반적으로 가지치기 성능을 향상시키며, 정지 조건이 가지치기 수준을 효과적으로 결정한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.