Skip to main content
QUICK REVIEW

[논문 리뷰] DSD: Dense-Sparse-Dense Training for Deep Neural Networks

Song Han, Jeff Pool|arXiv (Cornell University)|2016. 07. 15.
Advanced Neural Network Applications참고 문헌 23인용 수 143
한 줄 요약

DSD 학습은 Dense, Sparse, Re-dense 단계를 교대로 사용하여 네트워크를 정규화하고 더 나은 최적화를 달성하며, 추론 오버헤드 없이 CNN, RNN, LSTM 전반에서 정확도/WER/BLEU를 향상시킨다.

ABSTRACT

Modern deep neural networks have a large number of parameters, making them very hard to train. We propose DSD, a dense-sparse-dense training flow, for regularizing deep neural networks and achieving better optimization performance. In the first D (Dense) step, we train a dense network to learn connection weights and importance. In the S (Sparse) step, we regularize the network by pruning the unimportant connections with small weights and retraining the network given the sparsity constraint. In the final D (re-Dense) step, we increase the model capacity by removing the sparsity constraint, re-initialize the pruned parameters from zero and retrain the whole dense network. Experiments show that DSD training can improve the performance for a wide range of CNNs, RNNs and LSTMs on the tasks of image classification, caption generation and speech recognition. On ImageNet, DSD improved the Top1 accuracy of GoogLeNet by 1.1%, VGG-16 by 4.3%, ResNet-18 by 1.2% and ResNet-50 by 1.1%, respectively. On the WSJ'93 dataset, DSD improved DeepSpeech and DeepSpeech2 WER by 2.0% and 1.1%. On the Flickr-8K dataset, DSD improved the NeuralTalk BLEU score by over 1.7. DSD is easy to use in practice: at training time, DSD incurs only one extra hyper-parameter: the sparsity ratio in the S step. At testing time, DSD doesn't change the network architecture or incur any inference overhead. The consistent and significant performance gain of DSD experiments shows the inadequacy of the current training methods for finding the best local optimum, while DSD effectively achieves superior optimization performance for finding a better solution. DSD models are available to download at https://songhan.github.io/DSD.

연구 동기 및 목표

  • 과적합과 로컬 미니마를 피하기 위해 대형 심층 네트워크에서 더 나은 최적화의 필요성을 동기화한다.
  • 용량을 정규화하고 향상시키기 위한 세 단계의 학습 흐름(dense → sparse → re-dense)을 도입한다.
  • 다양한 작업에서 CNN, RNN, LSTM 전반에 걸쳐 일관된 정확도 및 성능 향상을 보여준다.

제안 방법

  • 첫 번째 Dense 단계에서 가중치를 학습하고 중요한 연결을 식별하기 위해 Dense 네트워크를 학습한다.
  • 저진폭 가중치를 가지치기하여 희소성을 유도하고 Sparse 단계에서 고정된 희소 마스크 아래에서 재학습한다.
  • 가벼진 연결을 복원하고 0으로 재초기화한 후 최종 Dense 단계에서 전체 Dense 네트워크를 재학습한다.
  • S 단계에는 단 하나의 하이퍼파라미터(희소 비율)만 사용하고 다른 하이퍼파라미터는 변경하지 않는다.
  • 최종 Dense 네트워크가 원래 모델과 동일한 아키텍처와 추론 비용을 유지함을 보여준다.
  • 추가 이득을 위해 Dense-Sparse-Dense 사이클을 선택적으로 반복한다.

실험 결과

연구 질문

  • RQ1훈련 중 희소성 제약 단계(S)를 도입하면 표준 Dense 훈련을 넘어 최적화 및 일반화를 개선하는가?
  • RQ2가가지치기 후 재dense(D 단계)로 모델 용량을 증가시키고 추론 비용을 증가시키지 않고 더 좋은 미니마를 달성할 수 있는가?
  • RQ3DSD 접근법이 다양한 아키텍처(CNN, RNN, LSTM) 및 작업(image classification, captioning, speech recognition)에서 효과적인가?

주요 결과

  • DSD는 ImageNet 모델의 Top-1 오차를 개선한다: GoogLeNet 1.1%, VGG-16 4.3%, ResNet-18 1.2%, 및 ResNet-50 1.1%.
  • DSD는 Flickr-8K에서 NeuralTalk BLEU 점수를 1.7 이상 향상시킨다.
  • DSD는 WSJ’93에서 DeepSpeech 및 DeepSpeech2 WER를 각각 2.0%, 1.1% 향상시킨다.
  • 실험 전반에 걸쳐 DSD는 추론 오버헤드 없이 전통적 학습에 비해 일관된 성능 향상을 보여준다.
  • DSD는 S 단계에서 25–50% 희소성으로 가지치기를 가능하게 하며 실제로는 완만한 가지치기로 정확도를 향상시킨다.
  • DSD 결과는 CNN, RNN, LSTM 전반과 이미지 분류, 캡션 생성, 음성 인식 등의 작업에서 견고하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.