QUICK REVIEW

[논문 리뷰] An Effective Information Theoretic Framework for Channel Pruning

Yihao Chen, Zefang Wang|arXiv (Cornell University)|2024. 08. 14.

Artificial Immune Systems Applications인용 수 2

한 줄 요약

이 논문은 채널 프루닝을 위한 정보이론적 프레임워크를 제안하며, '정보 농도'로 불리는 랭크와 엔트로피의 융합을 사용해 계층별 프루닝 비율을 안내하고, 셰플리 값(Shapley values)을 활용해 중요도가 가장 낮은 채널을 식별하고 제거한다. 이 방법은 FLOP과 파라미터를 크게 줄이면서도 최신 기준의 정확도를 달성한다. 예를 들어, ResNet-56/CIFAR-10에서 45.5% FLOP 감소 시 0.21%의 정확도 향상이 있었고, ResNet-50/ImageNet에서는 41.6% FLOP 감소 시 Top-1 정확도 손실이 0.43%에 그쳤다.

ABSTRACT

Channel pruning is a promising method for accelerating and compressing convolutional neural networks. However, current pruning algorithms still remain unsolved problems that how to assign layer-wise pruning ratios properly and discard the least important channels with a convincing criterion. In this paper, we present a novel channel pruning approach via information theory and interpretability of neural networks. Specifically, we regard information entropy as the expected amount of information for convolutional layers. In addition, if we suppose a matrix as a system of linear equations, a higher-rank matrix represents there exist more solutions to it, which indicates more uncertainty. From the point of view of information theory, the rank can also describe the amount of information. In a neural network, considering the rank and entropy as two information indicators of convolutional layers, we propose a fusion function to reach a compromise of them, where the fusion results are defined as ``information concentration''. When pre-defining layer-wise pruning ratios, we employ the information concentration as a reference instead of heuristic and engineering tuning to provide a more interpretable solution. Moreover, we leverage Shapley values, which are a potent tool in the interpretability of neural networks, to evaluate the channel contributions and discard the least important channels for model compression while maintaining its performance. Extensive experiments demonstrate the effectiveness and promising performance of our method. For example, our method improves the accuracy by 0.21% when reducing 45.5% FLOPs and removing 40.3% parameters for ResNet-56 on CIFAR-10. Moreover, our method obtains loss in Top-1/Top-5 accuracies of 0.43%/0.11% by reducing 41.6% FLOPs and removing 35.0% parameters for ResNet-50 on ImageNet.

연구 동기 및 목표

현재 채널 프루닝 방법에서 계층별 프루닝 비율을 할당할 때 해석 불가능한 점을 해결하기 위해.
히우리스틱 또는 엔지니어링 기반 튜닝에 의존하지 않고, 원칙적인 정보이론 기반 기준을 통해 중요도가 낮은 채널을 식별하기 위해.
랭크와 엔트로피를 조합하여 특징 중요도의 보완적 지표로 활용함으로써 모델 압축 효율을 향상시키기 위해.
셰플리 값을 사용해 채널 기여도를 평가함으로써 프루닝 중 높은 모델 정확도를 유지하기 위해.
다양한 아키텍처와 작업(이미지 분류 및 객체 검출 포함)에 적용 가능한 일반화 가능하고 해석 가능한 프레임워크를 개발하기 위해.

제안 방법

이 방법은 각 컨볼루션 계층의 정보 내용을 정량화하기 위해 랭크와 엔트로피의 융합인 '정보 농도'를 도입한다.
랭크는 선형 시스템 내 독립적 해의 수를 대체로 사용하여 정보 용량을 나타낸다.
엔트로피는 계층의 특징 맵 활성화에서의 불확실성 또는 정보량을 측정한다.
랭크와 엔트로피의 융합은 계층별 프루닝 비율 할당에 더 견고하고 해석 가능한 지표를 제공한다.
각 채널이 최종 예측에 기여하는 정도를 평가하기 위해 셰플리 값을 계산한다.
가장 낮은 셰플리 값을 가진 채널을 각 계층에서 프루닝한 후, 정확도 복구를 위해 피니튜닝을 수행한다.

실험 결과

연구 질문

RQ1히우리스틱 튜닝이 아닌 원칙적이고 해석 가능한 방식으로 계층별 프루닝 비율을 어떻게 할당할 수 있는가?
RQ2랭크와 엔트로피의 융합이 채널 프루닝에서 특징 중요도의 신뢰할 수 있는 대체 지표가 될 수 있는가?
RQ3셰플리 값을 사용할 경우 기존의 중요도 기준에 비해 프루닝된 모델의 정확도가 어떻게 향상되는가?
RQ4이 정보이론적 프레임워크는 FLOP과 파라미터를 줄이면서도 모델 성능을 어느 정도 유지할 수 있는가?
RQ5이 방법은 이미지 분류 및 객체 검출과 같은 다양한 아키텍처와 작업에 일반화될 수 있는가?

주요 결과

CIFAR-10의 ResNet-56에서 45.5% FLOP 감소와 함께 40.3% 파라미터 감소를 달성하면서 정확도가 0.21% 향상되었다.
ImageNet의 ResNet-50에서는 41.6% FLOP 감소와 35.0% 파라미터 감소를 기록했고, Top-1 정확도 손실은 단 0.43%에 그쳤다.
객체 검출에서 프루닝된 RetinaNet은 COCO2017에서 25.55M 파라미터로 37.6% mAP 성능을 달성하여 뛰어난 효율-정확도 트레이드오프를 보였다.
정보 농도 지표는 계층별 프루닝 비율 할당에 효과적으로 기여하여 수동 튜닝에 대한 의존도를 감소시켰다.
셰플리 값은 채널 중요도 스코어링에 신뢰할 수 있는 게임 이론적 기반을 제공하여 프루닝 후 성능 유지에 기여했다.
이 프레임워크는 다양한 모델과 작업에 걸쳐 잘 일반화되어 있으며, 분류 및 검출 모두에서 뛰어난 성능을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.