QUICK REVIEW

[논문 리뷰] Network Trimming: A Data-Driven Neuron Pruning Approach towards Efficient Deep Architectures

Hengyuan Hu, Rui Tao Peng|arXiv (Cornell University)|2016. 07. 12.

Advanced Neural Network Applications참고 문헌 15인용 수 741

한 줄 요약

본 논문은 Network Trimming을 제안하며, 높은 APoZ(제로 활성화)를 가진 뉴런을 반복적으로 가지치어 더 작고 효율적인 네트워크를 만들고, 가중치 초기화를 통한 재학습으로 정확도를 보전하거나 향상시키는 방법이다.

ABSTRACT

State-of-the-art neural networks are getting deeper and wider. While their performance increases with the increasing number of layers and neurons, it is crucial to design an efficient deep architecture in order to reduce computational and memory costs. Designing an efficient neural network, however, is labor intensive requiring many experiments, and fine-tunings. In this paper, we introduce network trimming which iteratively optimizes the network by pruning unimportant neurons based on analysis of their outputs on a large dataset. Our algorithm is inspired by an observation that the outputs of a significant portion of neurons in a large network are mostly zero, regardless of what inputs the network received. These zero activation neurons are redundant, and can be removed without affecting the overall accuracy of the network. After pruning the zero activation neurons, we retrain the network using the weights before pruning as initialization. We alternate the pruning and retraining to further reduce zero activations in a network. Our experiments on the LeNet and VGG-16 show that we can achieve high compression ratio of parameters without losing or even achieving higher accuracy than the original network.

연구 동기 및 목표

네트워크의 깊이와 너비가 커지는 상황에서도 효율적인 심층 아키텍처를 설계하려는 동기.
큰 검증 세트에서 활성화 희소성을 분석하여 뉴런의 중복성을 식별한다.
성능을 보전하면서 매개변수를 줄이는 반복적인 가지치기-재학습 루프를 개발한다.
가지치기에 의해 줄여진 층 선택과 가지치기 임계값에 대한 실용적인 지침을 제시한다.

제안 방법

각 뉴런에 대해 대규모 검증 세트에서 APoZ의 평균을 측정한다.
임계값(대략 대상 층의 평균 APoZ보다 한 표준편차 높은 값)을 초과하는 뉴런을 가지치기한다.
ancestor 모델의 가중치로 트리밍된 네트워크를 초기화하고 성능 회복을 위해 재학습(또는 미세조정)한다.
층별로 반복적으로 가지치기와 재학습을 수행하여 점차적으로 중복성을 줄인다.
실험적 기준치(VGG-16, LeNet)에서 네트워크를 학습하고 압축과 정확도를 평가한다.
가중치 가지치기 방법과 비교하고 GPU 효율성을 위한 뉴런 수준 가지치기의 중요성을 강조한다.

실험 결과

연구 질문

RQ1높은 APoZ를 가진 뉴런을 가지치기하면 정확도에 해를 주지 않으면서 모델 크기를 줄일 수 있는가?
RQ2VGG-16과 같은 대형 아키텍처에서 반복적 가지치기-재학습 루프가 효과적인가?
RQ3가지치기 이후 재학습에 가중치 초기화가 어떤 영향을 미치는가?
RQ4LeNet 및 VGG-16과 같은 네트워크에서 가지치기로 어떤 층이 가장 큰 이점을 제공하는가?
RQ5APoZ 기반 가지치기가 계산 및 메모리 효율성 측면에서 연결 가지치기 방법과 어떻게 비교되는가?

주요 결과

네트워크에 상당한 중복성이 존재하며, 많은 뉴런이 높은 APoZ를 가지는 것으로 나타난다(예: VGG-16의 여러 층에서).
고 APoZ 뉴런의 반복적 가지치기는 재학습 후 LeNet에서 2–3배의 매개변수 압축을 달성한다(정확도 손실 없음).
재현성을 얻으려면 가지치기 후에 부모 모델로부터의 가중치 초기화가 필수적이다.
VGG-16에서 CONV5-3 및 FC6의 가지치기로 재학습 후 Top-1/Top-5 정확도가 2–3% 증가하는 동안 약 2.59배의 압축에 도달할 수 있다.
여러 층을 Trim하는 것은 효과적일 수 있지만 재학습이 필요하다; 마지막 conv 및 FC 층을 가지치면 상당한 매개변수 감소를 달성하면서 정확도는 유지되거나 향상된다.
가지치기가 끝난 VGG-16 모델은 파라미터 수가 더 적고 과적합이 줄어들며 원래 모델보다 더 우수한 성능을 보일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.