QUICK REVIEW

[논문 리뷰] PCONV: The Missing but Desirable Sparsity in DNN Weight Pruning for Real-time Execution on Mobile Devices

Xiaolong Ma, Fu-Ming Guo|arXiv (Cornell University)|2019. 09. 06.

Advanced Neural Network Applications참고 문헌 32인용 수 23

한 줄 요약

PCONV는 DNN 가중치 프루닝에서 세밀한 내부 커널 패턴과 굵은 무결성의 커널 간 연결성 프루닝을 결합하는 새로운 희소성 차원을 도입하여 높은 정확도와 하드웨어 효율성을 동시에 달성한다. 제안된 컴파일러 지원 추론 프레임워크는 정확도 손실 없이 모바일 GPU에서 최대 39.2배의 속도 향상을 이룩하여 VGG-16과 같은 대규모 모델에서 실시간 추론을 가능하게 한다.

ABSTRACT

Model compression techniques on Deep Neural Network (DNN) have been widely acknowledged as an effective way to achieve acceleration on a variety of platforms, and DNN weight pruning is a straightforward and effective method. There are currently two mainstreams of pruning methods representing two extremes of pruning regularity: non-structured, fine-grained pruning can achieve high sparsity and accuracy, but is not hardware friendly; structured, coarse-grained pruning exploits hardware-efficient structures in pruning, but suffers from accuracy drop when the pruning rate is high. In this paper, we introduce PCONV, comprising a new sparsity dimension, -- fine-grained pruning patterns inside the coarse-grained structures. PCONV comprises two types of sparsities, Sparse Convolution Patterns (SCP) which is generated from intra-convolution kernel pruning and connectivity sparsity generated from inter-convolution kernel pruning. Essentially, SCP enhances accuracy due to its special vision properties, and connectivity sparsity increases pruning rate while maintaining balanced workload on filter computation. To deploy PCONV, we develop a novel compiler-assisted DNN inference framework and execute PCONV models in real-time without accuracy compromise, which cannot be achieved in prior work. Our experimental results show that, PCONV outperforms three state-of-art end-to-end DNN frameworks, TensorFlow-Lite, TVM, and Alibaba Mobile Neural Network with speedup up to 39.2x, 11.4x, and 6.3x, respectively, with no accuracy loss. Mobile devices can achieve real-time inference on large-scale DNNs.

연구 동기 및 목표

고정확도 비구조적 프루닝과 하드웨어 효율적인 구조적 프루닝 사이의 격차를 해소하기 위해 새로운 희소성 차원을 도입한다.
기존 프루닝 방법의 한계를 극복한다. 즉, 정확도를 희생시키는 구조적 프루닝 또는 하드웨어 호환성을 포기하는 비구조적 프루닝을 방지한다.
알고리즘 혁신과 전용 컴파일러 스택을 조합하여 모바일 플랫폼에서 실시간 DNN 추론을 가능하게 한다.
모바일 CPU와 GPU에서 최대 성능을 발휘하기 위해 새로운 희소성 구조를 완전히 활용하는 통합 최적화 프레임워크를 개발한다.

제안 방법

각 컨볼루션 커널에서 고정된 수의 가중치를 프루닝하여 정규화된, 시각적 영감을 받은 필터 패턴(예: 가우시안 또는 라플라시안 필터)을 만드는 Sparse Convolution Patterns (SCP)를 도입한다.
커널 간 프루닝을 통한 연결성 희소성(Connectivity Sparsity)을 구현하여 전체 입력-출력 채널 연결을 제거함으로써 필터 길이와 워크로드 불균형을 줄인다.
계산 그래프에서 최적의 실행 코드를 생성하는 컴파일러 지원 DNN 추론 프레임워크를 설계하여 세밀한, 레이어 단위 최적화를 가능하게 한다.
고수준의 세밀한 DNN 레이어 단위 정보 추출을 적용하여 코드 생성과 레이어 간 워크로드 밸런싱을 안내한다.
실행 코드 생성을 통해 PCONV 모델을 내부 및 외부 커널 희소성 모두를 활용하는 효율적인 하드웨어 인식 커널로 매핑한다.
특히 CPU와 Adreno 640 GPU에서 메모리 액세스 패턴과 병렬성 등의 하드웨어 기능을 활용하여 모바일 플랫폼에 최적화한다.

실험 결과

연구 질문

RQ1DNN 가중치 프루닝에서 높은 정확도와 하드웨어 효율성을 균형 있게 확보할 수 있는 새로운 희소성 차원을 설계할 수 있는가?
RQ2내부 커널 패턴 프루닝과 커널 간 연결성 프루닝을 조합하면 기존의 구조적 또는 비구조적 방법보다 더 뛰어난 성능을 낼 수 있는가?
RQ3컴파일러 지원 프레임워크가 새로운 희소성 구조를 완전히 활용하여 모바일 기기에서 실시간 추론을 달성할 수 있는가?
RQ4다양한 희소성 패턴의 수가 모델 정확도와 추론 속도에 미치는 영향은 어떠한가?
RQ5제안된 PCONV 프레임워크는 최신 모바일 추론 프레임워크 대비 최대 몇 배의 성능 향상을 달성할 수 있는가?

주요 결과

PCONV는 VGG-16에 대해 모바일 GPU에서 TensorFlow-Lite 대비 최대 39.2배의 속도 향상을 기록했으며, 정확도 손실이 없었다.
모바일 CPU에서는 TFLite 대비 9.4×에서 39.2×의 속도 향상, TVM 대비 2.2×에서 5.1×, MNN 대비 1.7×에서 6.3×의 성능 향상을 기록했다.
GPU에서는 TFLite 대비 2.2×에서 18.0×, TVM 대비 2.5×에서 11.4×, MNN 대비 1.5×에서 5.8×의 속도 향상을 달성했다.
ImageNet에서 VGG-16에 대해 GPU에서 추론을 19.1ms 내로 완료하여 초당 52.4 프레임의 성능을 달성하여 실시간 요구 조건을 충족했다.
PCONV는 VGG-16의 9개 레이어 유형 전반에서 CPU 및 GPU GFLOPS 성능에서 MNN를 모두 초월하여 더 높은 처리량을 보였다.
설계된 SCP를 사용할 경우 패턴 수의 영향은 정확도에 거의 영향을 주지 않으며, 정확도 손실은 극히 미미함(≤0.3%)하지만, 무작위 패턴을 사용할 경우 성능 저하가 심각하게 발생한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.