[논문 리뷰] AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
AutoCompress는 DRL보다 강화된 ADMM 기반 가지치기와 정제 단계 및 안내된 휴리스틱 탐색을 활용한 DNN 구조적 가지치기를 위한 자동 프레임워크를 제시하여, 최소한의 정확도 손실로 초고용량의 가중치/FLOPs 감소를 달성한다.
Structured weight pruning is a representative model compression technique of DNNs to reduce the storage and computation requirements and accelerate inference. An automatic hyperparameter determination process is necessary due to the large number of flexible hyperparameters. This work proposes AutoCompress, an automatic structured pruning framework with the following key performance improvements: (i) effectively incorporate the combination of structured pruning schemes in the automatic process; (ii) adopt the state-of-art ADMM-based structured weight pruning as the core algorithm, and propose an innovative additional purification step for further weight reduction without accuracy loss; and (iii) develop effective heuristic search method enhanced by experience-based guided search, replacing the prior deep reinforcement learning technique which has underlying incompatibility with the target pruning problem. Extensive experiments on CIFAR-10 and ImageNet datasets demonstrate that AutoCompress is the key to achieve ultra-high pruning rates on the number of weights and FLOPs that cannot be achieved before. As an example, AutoCompress outperforms the prior work on automatic model compression by up to 33x in pruning rate (120x reduction in the actual parameter count) under the same accuracy. Significant inference speedup has been observed from the AutoCompress framework on actual measurements on smartphone. We release all models of this work at anonymous link: http://bit.ly/2VZ63dS.
연구 동기 및 목표
- 구조적 가지치기로 가중치/FLOPs를 감소시키면서 정확도 손실을 최소화하기 위한 자동 하이퍼파라미터 결정 동기를 부여한다.
- 더 높은 압축을 위한 다중 구조적 가지치기 스킴(예: 필터, 컬럼)을 통합한다.
- 핵심 해답으로 ADMM 기반 구조적 가지치기를 활용하고 정제 단계를 추가한다.
- DRL 기반 하이퍼파라미터 탐색을 경험 안내 휴리스틱 탐색으로 대체하여 높은 가지치기 비율을 가능하게 한다.
제안 방법
- 핵심 최적화 엔진으로 ADMM 기반의 구조적 가중치 가지치기를 채택한다.
- 구조를 보존하면서 컬럼/필터 단위 임계값으로 추가 가중치를 제거하는 정제 단계를 포함한다.
- 작업 샘플링, 신속한 작업 평가, 의사결정, 실제 가지치기의 4단계 일반 프로세스를 사용한다.
- 레이어 전반의 가지치기 동작을 결정하기 위해 안내된 탐색이 있는 강화된 시뮬레이티드 어닐링을 사용한다.
- 약 2배 감소를 목표로 한 단계별 가지치기의 진행 가능한 라운드를 허용하여 초고 압축을 달성한다.
- 필터 가지치기와 컬럼 가지치기를 결합하여 하드웨어 호환성과 성능을 향상시키는 자동 프레임워크를 제공한다.
실험 결과
연구 질문
- RQ1레이어별 가지치기 비율 및 가지치기 스킴 조합의 자동 선택이 정확도 손실 없이 더 높은 압축을 달성할 수 있는가?
- RQ2필터 가지치기와 컬럼 가지치기를 결합하고 ADMM 기반 가지치기를 사용하는 것이 DRL 기반 또는 수동 하이퍼파라미터 방법보다 우수한가?
- RQ3사전 경험으로 안내되는 휴리스틱 탐색이 고율 구조적 가지치기에 있어 DRL보다 더 효과적인가?
- RQ4정제 단계가 정확도 손실 없이 가중치/FLOPs 감소에 얼마나 기여하는가?
주요 결과
- AutoCompress는 이전의 자동 모델 압축 방법보다 가지치기 비율에서 최대 33배, 매개변수 감소는 최대 120배까지 유사 정확도에서 성능을 앞선다.
- 구조적 가지치기(필터 + 컬럼 가지치기)의 결합은 필터 가지치기만보다 가중치/FLOPs 감소가 더 크다.
- 향상된 SA 기반 하이퍼파라미터 결정은 DRL 기반 접근법과 수동 조정보다 더 높은 가지치기 비율을 달성한다.
- 2단계 정제는 낮은 크기의 컬럼/필터 및 그에 의존하는 채널을 제거하여 정확도 손실 없이 가중치를 추가로 감소시킨다.
- CIFAR-10 및 ImageNet에서 AutoCompress는 초고도 가지치기 비율과 모바일 하드웨어에서의 측정 가능한 추론 속도 향상을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.