QUICK REVIEW

[논문 리뷰] Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methods

Xiaojie Jin, Xiao–Tong Yuan|arXiv (Cornell University)|2016. 07. 19.

Advanced Neural Network Applications참고 문헌 24인용 수 61

한 줄 요약

이 논문은 일반화 성능을 향상시키고 모델 크기를 줄이며 훨씬 적은 파라미터를 사용하는 슬림한 딥 네ural 네트워크(SDNNs)를 훈련하기 위해 반복적 하드 스레시홀딩(IHT) 방법을 제안한다. 이 방법은 낮은 크기의 연결을 제거하기 위한 하드 스레시홀딩과 나머지 가중치를 미세조정하는 것을 번갈아가며 수행하며, 이후 모든 연결을 재활성화하고 재학습시켜 CIFAR-10, CIFAR-100, MNIST 및 ImageNet에서 최신 기술 수준의 성능을 달성한다. 파라미터 수를 최대 4배까지 줄일 수 있다.

ABSTRACT

Deep neural networks have achieved remarkable success in a wide range of practical problems. However, due to the inherent large parameter space, deep models are notoriously prone to overfitting and difficult to be deployed in portable devices with limited memory. In this paper, we propose an iterative hard thresholding (IHT) approach to train Skinny Deep Neural Networks (SDNNs). An SDNN has much fewer parameters yet can achieve competitive or even better performance than its full CNN counterpart. More concretely, the IHT approach trains an SDNN through following two alternative phases: (I) perform hard thresholding to drop connections with small activations and fine-tune the other significant filters; (II)~re-activate the frozen connections and train the entire network to improve its overall discriminative capability. We verify the superiority of SDNNs in terms of efficiency and classification performance on four benchmark object recognition datasets, including CIFAR-10, CIFAR-100, MNIST and ImageNet. Experimental results clearly demonstrate that IHT can be applied for training SDNN based on various CNN architectures such as NIN and AlexNet.

연구 동기 및 목표

딥 네ural 네트워크에서 과적합과 높은 메모리/계산 비용이라는 이중 과제를 해결하기 위해.
특히 높은 압축 비율에서 성능을 훼손하지 않으면서 모델 크기를 줄이는 방법을 개발하기 위해.
반복적 프루닝과 재학습을 통해 압축된 네트워크의 일반화 능력을 향상시키기 위해.
모바일폰과 같은 메모리 제약이 있는 장치에 깊은 모델을 효율적으로 구현하기 위해.

제안 방법

이 방법은 두 단계를 번갈아가며 수행한다: 가중치 크기 기준 상위-k 파라미터만 유지하고 나머지는 0으로 설정하는 하드 스레시홀딩.
제1단계에서는 프루닝 이후 성능 복구를 위해 남아있는 활성 연결을 기반으로 네트워크를 미세조정한다.
제2단계에서는 이전에 동결된 연결을 재활성화하고 전체 네트워크를 함께 학습시켜 표현 학습을 향상시킨다.
이 두 단계를 반복적으로 적용하여 점차 정교한 희박한 네트워크 구조를 개선한다.
하드 스레시홀딩은 각 레이어별로 적용되며, 가중치 크기 기준으로 가장 중요한 필터만 유지한다.
이 방법은 NIN 및 AlexNet과 같은 다양한 아키텍처에 적용되며, 훈련 중에 명시적인 크기 제약 조건이 적용된다.

실험 결과

연구 질문

RQ1반복적 하드 스레시홀딩은 모델 크기를 줄이면서도 딥 네럴 네트워크의 일반화 성능을 향상시킬 수 있는가?
RQ2하드 스레시홀딩을 통한 프루닝 후 재학습이 표준 프루닝이나 정규화보다 더 나은 성능을 낼 수 있는가?
RQ3IHT로 훈련된 SDNNs는 훨씬 적은 파라미터로 최신 기술 수준의 정확도를 달성할 수 있는가?
RQ4이 방법은 MNIST, CIFAR-10/100 및 ImageNet과 같은 복잡도가 다른 데이터셋 간에 어떻게 스케일링되는가?
RQ5IHT 기반 훈련 전략은 높은 압축 비율에서도 성능을 유지하거나 향상시키는가?

주요 결과

CIFAR-10에서 SDNN-2×는 파라미터 수의 절반만 사용하면서도 NIN 대비 오차율을 2.42% 감소시켰다.
CIFAR-100에서 SDNN-2×는 데이터 증강을 사용한 경우 오차율이 NIN보다 5.18% 낮았고, 증강 없이도 3.19% 낮았다. 이는 더 작은 모델 크기임에도 불구하고 성능이 뛰어났다.
MNIST에서 SDNN-2×는 오직 0.18M 파라미터로 0.19%의 오차율을 기록했으며, NIN(0.35M 파라미터, 0.47% 오차율)을 능가했다.
ImageNet에서 SDNN-2×는 기준 AlexNet 대비 파라미터 수를 50% 줄였고, 상위-5 오차율을 1.66% 감소시켰다.
SDNN-4×는 기준 AlexNet(15M 파라미터)보다 오차율이 0.81% 낮았으며, 동일한 크기에서 이전의 프루닝 방법을 뛰어넘는 성능을 보였다.
이 방법은 모든 데이터셋과 아키텍처에서 높은 압축 비율에서도 일관되게 성능을 향상시켜 뛰어난 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.