QUICK REVIEW

[논문 리뷰] StructADMM: A Systematic, High-Efficiency Framework of Structured Weight Pruning for DNNs

Tianyun Zhang, Shaokai Ye|arXiv (Cornell University)|2018. 07. 29.

Advanced Neural Network Applications참고 문헌 11인용 수 30

한 줄 요약

이 논문은 정규화를 동적으로 조정하는 분할 증분 다중승수 방법(ADMM)을 사용하여 구조적 가중치 프루닝을 위한 통합적이고 체계적인 프레임워크인 StructADMM를 제안한다. 이는 필터 단위, 채널 단위, 형태 단위의 프루닝 패턴을 모두 고려하여 높은 정확도와 높은 프루닝 비율을 달성하며, NVIDIA 1080Ti에서 3.65배의 GPU 가속도와 ResNet-50에서 15배의 압축률을 기록하며 기존 작업을 크게 능가한다.

ABSTRACT

Weight pruning methods of DNNs have been demonstrated to achieve a good model pruning rate without loss of accuracy, thereby alleviating the significant computation/storage requirements of large-scale DNNs. Structured weight pruning methods have been proposed to overcome the limitation of irregular network structure and demonstrated actual GPU acceleration. However, in prior work the pruning rate (degree of sparsity) and GPU acceleration are limited (to less than 50%) when accuracy needs to be maintained. In this work,we overcome these limitations by proposing a unified, systematic framework of structured weight pruning for DNNs. It is a framework that can be used to induce different types of structured sparsity, such as filter-wise, channel-wise, and shape-wise sparsity, as well non-structured sparsity. The proposed framework incorporates stochastic gradient descent with ADMM, and can be understood as a dynamic regularization method in which the regularization target is analytically updated in each iteration. Without loss of accuracy on the AlexNet model, we achieve 2.58X and 3.65X average measured speedup on two GPUs, clearly outperforming the prior work. The average speedups reach 3.15X and 8.52X when allowing a moderate ac-curacy loss of 2%. In this case the model compression for convolutional layers is 15.0X, corresponding to 11.93X measured CPU speedup. Our experiments on ResNet model and on other data sets like UCF101 and CIFAR-10 demonstrate the consistently higher performance of our framework.

연구 동기 및 목표

낮은 스파arsity(예: <50%)를 달성하고 정확도를 유지하면서도 GPU 가속도가 제한적인 기존의 구조적 프루닝 방법의 한계를 해결하기 위해.
다양한 종류의 구조적 스파arsity—필터 단위, 채널 단위, 형태 단위—를 동시에 유도할 수 있는 통합 프레임워크를 개발하기 위해.
해법의 타당성과 빠른 수렴을 보장하는 최적화 기반 접근 방식을 통해 정확도가 높고 압축률이 높은 DNN을 구현하기 위해.
다양한 모델과 데이터셋에 걸쳐 모델 압축, GPU 및 CPU에서의 추론 가속도, 일반화 능력 측면에서 뛰어난 실용적 성능을 입증하기 위해.

제안 방법

스티어티식 경사 하강법와 ADMM을 통합하여, 각 반복에서 정규화 목표값에 대한 분석적 갱신 규칙을 사용해 스파arsity 제약 조건을 동적으로 조정한다.
구조적 스파arsity를 조합 최적화 제약 조건으로 설정하여, ADMM이 이러한 제약 조건을 효과적으로 다룰 수 있도록 하면서도 해의 타당성을 유지한다.
프루닝된 모델의 정확도 유지에 기여하기 위해 마스크 매핑 및 재학습 단계를 포함한다.
ADMM 프레임워크 내에서 적절한 스파arsity 유도 제약 조건을 정의함으로써, 필터 단위, 채널 단위, 형태 단위의 다양한 스파arsity 패턴을 지원한다.
동일한 최적화 파이프라인을 통해 구조적 프루닝과 비구조적 프루닝을 모두 가능하게 하여 통합 프레임워크를 구현한다.
효율적인 희소 행렬 연산을 구현하고 실제 하드웨어(NVIDIA 1080Ti, Jetson TX2, Intel i7-6700K)에서 평가하여 실제 가속도를 측정한다.

실험 결과

연구 질문

RQ1통합 프레임워크는 DNN에서 필터 단위, 채널 단위, 형태 단위의 다양한 스파arsity 패턴에 대해 높은 정확도를 유지하면서도 고정확도의 구조적 가중치 프루닝을 달성할 수 있는가?
RQ2동적 정규화를 적용한 ADMM 기반 최적화는 히وري스틱 정규화 방법보다 더 높은 프루닝 비율과 더 빠른 수렴을 가능하게 하는가?
RQ3구조적 프루닝은 정확도를 유지하거나 향상시키면서도 GPU 및 CPU에서 뚜렷한 가속도를 달성할 수 있는가?
RQ4특히 정확도 손실가능성이 중간 수준일 때, 이전 작업에 비해 프루닝 비율과 가속도 측면에서 어떻게 비교되는가?

주요 결과

정확도 손실 없이 AlexNet에서 StructADMM는 NVIDIA 1080Ti에서 2.58배, Jetson TX2에서 3.65배의 GPU 가속도를 기록하였으며, 이는 이전 작업의 49% 가속도를 뛰어넘는 성능이다.
정확도 손실 2% 수준에서, 프레임워크는 GPU에서 각각 3.15배와 8.52배의 가속도를 달성하였고, 합성곱 레이어에서 15.0배의 모델 압축률을 기록하여 이에 따라 CPU에서 11.93배의 가속도를 확보하였다.
ResNet-50에서, 이 방법은 정확도 손실 0%로 2배의 구조적 프루닝을 달성하였고, 정확도 손실 0.9% 수준에서 3배의 프루닝을 실현하여 강력한 일반화 능력을 입증하였다.
AlexNet에서 비구조적 프루닝을 수행한 결과, conv2-conv5에서 정확도 손실 없이 16.1배의 압축률을 달성하였으며, Han 등(2015)과 Guo 등(2016)의 이전 방법을 초월하였다.
비구조적 프루닝 비율이 40.5배에 이르는 경우에도, TX2에서는 GPU 가속도가 2배 이하로 유지되고 1080Ti에서는 감소함을 확인하여, 비정규적인 스파arsity는 실질적인 가속도를 제공하지 못함을 확인하였다.
최신 기술들 중에서 AlexNet과 VGG-16에서 비구조적 프루닝의 총합 압축률이 가장 높으며, 정확도 손실 없이 성능을 확보하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.