QUICK REVIEW

[논문 리뷰] Deep Model Compression via Deep Reinforcement Learning.

Huixin Zhan, Yongcan Cao|arXiv (Cornell University)|2019. 12. 04.

Advanced Neural Network Applications참고 문헌 1인용 수 2

한 줄 요약

이 논문은 컨volution 신경망(CNNs)을 위한 딥 강화학습(DRL) 기반의 이단계 모델 압축 프레임워크를 제안한다. 층 단위 채널 프루닝과 커널 단위 변동 프루닝을 조합하여 FLOPs와 모델 크기를 감소시키고, 이후 DRL 최적화된 양자화를 통해 각 층의 비트 폭을 최소화한다. 이 방법은 CIFAR-10에서 VGGNet을 9배로 압축하면서 정확도를 0.2% 향상시키고, ImageNet에서 VGG-16을 33배로 압축하면서 정확도 손실 없이 성능을 유지한다.

ABSTRACT

Besides accuracy, the storage of convolutional neural networks (CNN) models is another important factor considering limited hardware resources in practical applications. For example, autonomous driving requires the design of accurate yet fast CNN for low latency in object detection and classification. To fulfill the need, we aim at obtaining CNN models with both high testing accuracy and small size/storage to address resource constraints in many embedded systems. In particular, this paper focuses on proposing a generic reinforcement learning based model compression approach in a two-stage compression pipeline: pruning and quantization. The first stage of compression, i.e., pruning, is achieved via exploiting deep reinforcement learning (DRL) to co-learn the accuracy of CNN models updated after layer-wise channel pruning on a testing dataset and the FLOPs, number of floating point operations in each layer, updated after kernel-wise variational pruning using information dropout. Layer-wise channel pruning is to remove unimportant kernels from the input channel dimension while kernel-wise variational pruning is to remove unimportant kernels from the 2D-kernel dimensions, namely, height and width. The second stage, i.e., quantization, is achieved via a similar DRL approach but focuses on obtaining the optimal weight bits for individual layers. We further conduct experimental results on CIFAR-10 and ImageNet datasets. For the CIFAR-10 dataset, the proposed method can reduce the size of VGGNet by 9x from 20.04MB to 2.2MB with 0.2% accuracy increase. For the ImageNet dataset, the proposed method can reduce the size of VGG-16 by 33x from 138MB to 4.14MB with no accuracy loss.

연구 동기 및 목표

자율주행 차량과 같은 자원 제약이 있는 임베디드 시스템에 정확하면서도 컴팩트한 CNN을 구현하는 데 도전하는 것.
테스트 정확도를 훼손하지 않으면서 모델 크기와 FLOPs를 감소시켜 저지연 및 저장 요구사항을 충족시키는 것.
프루닝과 양자화 단계 모두에 대해 딥 강화학습을 사용하는 일반적이고 종단 간 압축 파이프라인 개발.
강화학습을 통해 자동으로 각 층에 맞는 프루닝 및 비트 폭 선택 최적화를 수행하는 것.
표준 벤치마크에서 정확도를 유지하거나 약간 향상시키면서도 높은 압축 비율을 달성하는 것.

제안 방법

층 단위 채널 프루닝 동안 모델 정확도와 FLOPs를 동시에 공학하는 데 딥 강화학습을 활용하여, 입력 채널 차원을 따라 중요도가 낮은 커널을 제거한다.
정보 드롭아웃을 사용한 커널 단위 변동 프루닝을 적용하여 2차원 커널 차원(높이 및 너비)을 따라 부족한 필터를 제거한다.
각 층의 최적 비트 폭을 결정하기 위해 별도의 DRL 에이전트를 사용하여 비트 폭을 최소화하면서 정확도를 유지한다.
정확도 유지와 모델 압축의 균형을 이루기 위해 DRL 에이전트를 검증 세트에서 훈련한다.
이중 단계 파이프라인 설계: 먼저 채널 및 커널 기반 제거를 통한 프루닝, 그 다음 비트 폭 최적화를 통한 양자화, 모두 DRL에 의해 이끌림.
정확도와 FLOPs(또는 모델 크기)를 조합한 보상 함수를 사용하여 DRL 에이전트가 효율적이고 고성능의 모델 압축을 향해 유도한다.

실험 결과

연구 질문

RQ1딥 강화학습은 CNN 층의 구조적 프루닝 동안 모델 정확도와 FLOPs를 효과적으로 동시 최적화할 수 있는가?
RQ2DRL 기반의 프루닝 전략은 모델 크기와 계산 비용을 감소시키면서도 정확도를 유지하거나 향상시킬 수 있는가?
RQ3DRL을 사용하여 각 층의 최적 비트 폭을 자동으로 결정할 수 있는가? 이는 압축과 정확도의 균형을 맞출 수 있는가?
RQ4CIFAR-10과 ImageNet과 같은 표준 벤치마크에서 달성 가능한 압축 비율과 정확도 트레이드오프는 어떠한가?
RQ5제안된 이단계 DRL 파이프라인이 기존의 수작업 또는 히우리스틱 기반의 압축 방법보다 모델 크기와 정확도 측면에서 뛰어나게 성능을 발휘하는가?

주요 결과

CIFAR-10 데이터셋에서 제안된 방법은 VGGNet의 크기를 20.04MB에서 2.2MB로 줄여 9배의 압축 비율을 달성하였고, 정확도는 0.2% 향상되었다.
ImageNet 데이터셋에서 이 방법은 VGG-16의 크기를 138MB에서 4.14MB로 줄여 33배의 압축 비율을 달성하였고, 정확도 손실 없이 성능을 유지하였다.
DRL 기반의 프루닝 전략은 채널 및 커널 차원을 모두 통해 중요도가 낮은 필터를 효과적으로 식별하고 제거하여 FLOPs를 감소시키면서 성능 저하 없이 유지하였다.
DRL 기반의 양자화 과정은 각 층의 최적 비트 폭을 성공적으로 결정하여 모델 크기를 최소화하면서도 높은 정확도를 유지하였다.
이중 단계 압축 파이프라인은 다양한 네트워크 아키텍처와 데이터셋에 걸쳐 강력한 일반화 성능을 보였다.
이 방법은 상태 기반의 압축 효율성을 달성하여, 크기 감소와 정확도 유지 측면에서 기존의 압축 기법들을 크게 능가하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.