Skip to main content
QUICK REVIEW

[논문 리뷰] DSD: Regularizing Deep Neural Networks with Dense-Sparse-Dense Training Flow.

Song Han, Jeff Pool|arXiv (Cornell University)|2016. 07. 15.
Domain Adaptation and Few-Shot Learning참고 문헌 22인용 수 70
한 줄 요약

DSD는 밀도-희소성-밀도라는 세 단계로 구성된 훈련 프로세스로, 먼저 밀집된 네트워크를 훈련한 후 희소성 제약 조건 하에 중요하지 않은 연결을 제거하고, 이후에 제거된 가중치를 재초기화한 후 전체 밀집 네트워크를 다시 훈련한다. 이 방법은 추론 비용을 증가시키지 않고도 이미지 분류, 음성 인식, 캡션 생성 작업에서 CNN, RNN, LSTM 등 다양한 구조에서 정확도를 향상시킨다.

ABSTRACT

Modern deep neural networks have a large number of parameters, making them very powerful machine learning systems. A critical issue for training such large networks on large-scale data-sets is to prevent overfitting while at the same time providing enough model capacity. We propose DSD, a dense-sparse-dense training flow, for regularizing deep neural networks. In the first D step, we train a dense network to learn which connections are important. In the S step, we regularize the network by pruning the unimportant connections and retrain the network given the sparsity constraint. In the final D step, we increase the model capacity by freeing the sparsity constraint, re-initializing the pruned parameters, and retraining the whole dense network. Experiments show that DSD training can improve the performance of a wide range of CNN, RNN and LSTMs on the tasks of image classification, caption generation and speech recognition. On the Imagenet dataset, DSD improved the absolute accuracy of AlexNet, GoogleNet, VGG-16, ResNet50, ResNet-152 and SqueezeNet by a geo-mean of 2.1 points (Top-1) and 1.4 points (Top-5). On the WSJ’92 and WSJ’93 dataset, DSD improved DeepSpeech2 WER by 0.53 and 1.08 points. On the Flickr-8K dataset, DSD improved the NeuralTalk BLEU score by 2.0 points. DSD training flow produces the same model architecture and doesn’t incur any inference overhead.

연구 동기 및 목표

  • 대규모 데이터셋에서 훈련되는 대규모 딥 네트워크의 과적합 문제를 다루면서 모델 용량을 유지하는 것.
  • 모델 복잡도나 추론 비용을 증가시키지 않고 일반화 성능을 향상시키는 정규화 기법을 개발하는 것.
  • 구조적 희소성과 그 후 재훈련이 다양한 아키텍처와 작업에서 성능 향상에 기여하는지 탐색하는 것.
  • 동적 희소성을 통해 일반화 성능를 향상시키면서도 최종 모델 아키텍처를 동일하게 유지하는 훈련 프로세스를 설계하는 것.

제안 방법

  • 첫 번째 D 단계에서는 표준 역전파를 통해 중요한 연결을 식별하기 위해 완전히 연결된(밀집된) 네트워크를 훈련한다.
  • S 단계에서는 크기 또는 중요도 점수에 기반해 중요하지 않은 연결을 제거하고, 남은 희소 네트워크를 희소성 제약 조건 하에 미세 조정한다.
  • 마지막 D 단계에서는 희소성 제약 조건을 제거하고, 제거된 가중치를 재초기화한 후 전체 밀집 네트워크를 다시 처음부터 훈련한다.
  • 이 방법은 CNN, RNN, LSTM 등 다양한 아키텍처에 적용 가능하며 표준 훈련 파ip라인과 호환된다.
  • 이 훈련 프로세스는 엔드 투 엔드로 미분 가능하며 최종 모델 아키텍처를 변경하지 않으며 추론 오버헤드를 유발하지 않는다.

실험 결과

연구 질문

  • RQ1밀도-희소성-밀도 훈련 프로세스는 다양한 아키텍처와 작업에서 딥 네트워크의 일반화 성능 향상에 기여하는가?
  • RQ2구조적 희소성과 그 후 재훈련이 모델 크기나 추론 비용을 증가시키지 않고 성능 향상에 기여하는가?
  • RQ3이미지 분류, 음성 인식, 캡션 생성 작업에서 표준 훈련과 비교해 DSD는 정확도 향상에 얼마나 기여하는가?
  • RQ4DSD 프로세스는 ImageNet, WSJ, Flickr-8K와 같은 벤치마크 데이터셋에서 성능 향상에 어느 정도 영향을 미치는가?

주요 결과

  • ImageNet에서 DSD는 AlexNet, GoogleNet, VGG-16, ResNet50, ResNet-152, SqueezeNet의 상위-1 정확도를 기하 평균 2.1점 향상시켰다.
  • 동일한 데이터셋에서 DSD는 동일한 모델들에 대해 상위-5 정확도를 기하 평균 1.4점 향상시켰다.
  • WSJ’92 및 WSJ’93 데이터셋에서 DSD는 DeepSpeech2의 WER을 각각 0.53점과 1.08점 감소시켰다.
  • Flickr-8K 데이터셋에서 DSD는 NeuralTalk BLEU 점수를 2.0점 향상시켰다.
  • DSD 훈련 프로세스는 동일한 최종 모델 아키텍처를 유지하며 추가적인 추론 오버헤드를 유발하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.