QUICK REVIEW

[논문 리뷰] Data-Driven Sparse Structure Selection for Deep Neural Networks

Zehao Huang, Naiyan Wang|arXiv (Cornell University)|2017. 07. 05.

Advanced Neural Network Applications참고 문헌 42인용 수 32

한 줄 요약

이 논문은 데이터 기반의 엔드 투 엔드 프레임워크인 스파스 스타일러처 선택(Sparse Structure Selection, SSS)을 제안한다. 이 방법은 뉴런, 그룹, 리스크리드 블록 등에 대해 학습 가능한 스케일링 인자를 도입하고, 이 인자들이 0으로 수렴하도록 스파arsity 정규화를 적용함으로써 자동으로 하드웨어 친화적인 구조적 프루닝을 가능하게 한다. 이는 반복적인 피니어튜닝 없이 CIFAR-10, CIFAR-100, ImageNet에서 상태최저 성능을 달성하면서도 FLOP 수치를 크게 감소시킨다. 방법론적으로 수정된 확률적 가속화 프록시멀 그라디언트(APG) 최적화 기법을 사용하여 안정적인 수렴과 효율적인 스파arsity 유도를 달성한다.

ABSTRACT

Deep convolutional neural networks have liberated its extraordinary power on various tasks. However, it is still very challenging to deploy state-of-the-art models into real-world applications due to their high computational complexity. How can we design a compact and effective network without massive experiments and expert knowledge? In this paper, we propose a simple and effective framework to learn and prune deep models in an end-to-end manner. In our framework, a new type of parameter -- scaling factor is first introduced to scale the outputs of specific structures, such as neurons, groups or residual blocks. Then we add sparsity regularizations on these factors, and solve this optimization problem by a modified stochastic Accelerated Proximal Gradient (APG) method. By forcing some of the factors to zero, we can safely remove the corresponding structures, thus prune the unimportant parts of a CNN. Comparing with other structure selection methods that may need thousands of trials or iterative fine-tuning, our method is trained fully end-to-end in one training pass without bells and whistles. We evaluate our method, Sparse Structure Selection with several state-of-the-art CNNs, and demonstrate very promising results with adaptive depth and width selection.

연구 동기 및 목표

자율주행차와 같은 지연 시간이 중요한 실세계 응용 분야에 고복잡도 딥 네ural 네트워크를 구현하는 데 도전하는 것.
모델 압축 과정에서 수동적인 아키텍처 설계나 반복적 프루닝 및 피니어튜닝이 필요 없도록 하는 것.
작업 난이도와 하드웨어 제약 조건에 따라 네트워크의 깊이와 너비를 자동으로 적응적으로 선택할 수 있도록 하는 것.
표준 GPU에서 추론 속도를 높일 수 있는 하드웨어 효율적인 구조적 스파arsity를 달성하는 것.
네트워크 가중치와 구조적 스파arsity를 동시에 최적화하는 통합된 엔드 투 엔드 훈련 및 프루닝 프레임워크를 개발하는 것.

제안 방법

특정 네트워크 구조(예: 뉴런, 그룹, 리스크리드 블록)의 출력을 조절할 수 있는 학습 가능한 스케일링 인자를 도입하여, 구조적 중요도에 대한 미분 가능 제어를 가능하게 한다.
스케일링 인자에 L1 유형의 스파arsity 페널티를 추가함으로써 네트워크 훈련과 프루닝을 함께 고려한 공동 스파arsity 정규화 최적화 문제로 재구성한다.
안정적인 수렴과 효율적인 스파arsity 유도를 위해 최적화를 해결하기 위해 수정된 확률적 가속화 프록시멀 그라디언트(APG) 방법을 사용한다.
스케일링 인자가 0이 된 요소를 영구적으로 제거함으로써 프루닝된 작고 효율적인 모델을 생성한다.
다중 단계의 피니어튜닝이나 히우리스틱 프루닝 전략을 피하기 위해 단일 훈련 단계에서 프레임워크를 엔드 투 엔드로 적용한다.
뉴런, 리스크리드 블록, 채널 그룹의 동적 프루닝을 지원하여 깊이와 너비를 자동 조정할 수 있도록 한다.

실험 결과

연구 질문

RQ1딥 네럴 네트워크가 인간이 설계한 아키텍처나 반복적 튜닝 없이 훈련 도중 최적의 구조(깊이와 너비)를 자동으로 학습할 수 있는가?
RQ2다양화 가능한 파rameter를 통해 구조적 스파arsity를 도입할 수 있으며, 이는 엔드 투 엔드 훈련과 하드웨어 가속 추론을 가능하게 하는가?
RQ3APG를 통해 네트워크 가중치와 구조적 스파arsity를 공동 최적화하는 방법이 히우리스틱 또는 반복적 프루닝 방법보다 정확도와 효율성 면에서 뛰어나게 성능을 내는가?
RQ4제안된 방법이 소규모(CIFAR) 및 대규모(ImageNet) 벤치마크에서 모두 최신 기준의 모델 압축 성능을 달성할 수 있는가?
RQ5최적화 방법의 선택(예: APG 대비 SGD 또는 ISTA)이 수렴 특성과 최종 모델 성능에 어떤 영향을 미치는가?

주요 결과

우리의 ResNet-32 모델은 ImageNet에서 25.82%의 top-1 오차를 기록했으며, [13]에서 발표한 프루닝된 ResNet-50(27.70%)보다 FLOPs가 14% 적게 사용하면서도 더 높은 성능을 달성했다.
우리의 ResNet-41는 ImageNet에서 24.56%의 top-1 오차를 기록했으며, [48]에서 발표한 프루닝된 ResNet-101 모델보다 0.88% 더 낮은 오차를 기록했고, FLOP 예산도 낮았다.
CIFAR-100에서 우리의 프루닝된 모델은 이전 최신 기준 방법들인 ThiNet 및 채널 프루닝보다 낮은 오차율을 기록했으며, FLOP 효율성 면에서도 뛰어났다.
APG는 ISTA 및 SGD보다 안정적인 수렴과 뛰어난 성능을 보였으며, 더 빠르고 신뢰도 높은 스파arsity 유도를 보였다.
프루닝된 ResNeXt-38 모델은 FLOPs가 14% 적게 사용되면서도 DenseNet-121보다 top-5 오차가 0.2% 낮아, 뛰어난 효율-정확도 트레이드오프를 보였다.
프레임워크는 작업 복잡도와 하드웨어 제약 조건에 따라 자동으로 깊이와 너비를 선택할 수 있도록 하며, 수동 설계나 다중 재훈련 사이클이 필요 없음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.