[論文レビュー] DSD: Dense-Sparse-Dense Training for Deep Neural Networks
DSDトレーニングは密集、疎結合、再密のフェーズを交互に用いてネットワークを正則化し、CNN、RNN、LSTMにおいて推論オーバーヘッドなしで精度/WER/BLEUを改善する。
Modern deep neural networks have a large number of parameters, making them very hard to train. We propose DSD, a dense-sparse-dense training flow, for regularizing deep neural networks and achieving better optimization performance. In the first D (Dense) step, we train a dense network to learn connection weights and importance. In the S (Sparse) step, we regularize the network by pruning the unimportant connections with small weights and retraining the network given the sparsity constraint. In the final D (re-Dense) step, we increase the model capacity by removing the sparsity constraint, re-initialize the pruned parameters from zero and retrain the whole dense network. Experiments show that DSD training can improve the performance for a wide range of CNNs, RNNs and LSTMs on the tasks of image classification, caption generation and speech recognition. On ImageNet, DSD improved the Top1 accuracy of GoogLeNet by 1.1%, VGG-16 by 4.3%, ResNet-18 by 1.2% and ResNet-50 by 1.1%, respectively. On the WSJ'93 dataset, DSD improved DeepSpeech and DeepSpeech2 WER by 2.0% and 1.1%. On the Flickr-8K dataset, DSD improved the NeuralTalk BLEU score by over 1.7. DSD is easy to use in practice: at training time, DSD incurs only one extra hyper-parameter: the sparsity ratio in the S step. At testing time, DSD doesn't change the network architecture or incur any inference overhead. The consistent and significant performance gain of DSD experiments shows the inadequacy of the current training methods for finding the best local optimum, while DSD effectively achieves superior optimization performance for finding a better solution. DSD models are available to download at https://songhan.github.io/DSD.
研究の動機と目的
- 大規模ディープネットワークにおける過学習と局所最小値の回避のためのより良い最適化の必要性を動機づける。
- 正則化と能力の向上のための三相トレーニングフロー(dense → sparse → re-dense)を導入する。
- 多様なタスクにおいてCNN、RNN、LSTMの一貫した精度と性能向上を示す。
提案手法
- 最初のDenseフェーズで重みを学習し、重要な接続を識別する。
- Sparseフェーズで低振幅の重みを剪定して疎性を誘発し、固定された疎マスクの下で再訓練する。
- 最終的なDenseフェーズで剪定された接続を復元し、0 に再初期化して全密なネットワークを再訓練する。
- Sフェーズの単一ハイパーパラメータ(疎度比)を使用し、他のハイパーパラメータは変更しない。
- 最終的なDenseネットワークが元のモデルと同じアーキテクチャと推論コストを維持することを示す。
- 追加の利得のためにDense-Sparse-Denseサイクルを任意に反復することも可能。
実験結果
リサーチクエスチョン
- RQ1トレーニング中に疎性制約フェーズ(S)を導入することで、標準的な密集トレーニングを超えた最適化と一般化が向上するか。
- RQ2剪定後の再密化(Dフェーズ)によってモデル容量が増加し、推論コストを増やすことなくより良い極小値を達成できるか。
- RQ3DSDアプローチはさまざまなアーキテクチャ(CNN、RNN、LSTMs)およびタスク(画像分類、キャプション生成、音声認識)で有効か。
主な発見
- DSDはImageNetモデルのTop-1エラーを改善: GoogLeNetを1.1%、VGG-16を4.3%、ResNet-18を1.2%、ResNet-50を1.1%改善。
- DSDはNeuralTalkのBLEUスコアをFlickr-8Kで1.7超改善。
- DSDはDeepSpeechとDeepSpeech2のWSJ’93でそれぞれ2.0%と1.1%のWERを改善。
- 実験全体を通じて、DSDは推論オーバーヘッドなしで従来のトレーニングを超える一貫した性能向上を示す。
- DSDはSステップで25–50%の疎化を許容し、実務的には控えめな剪定で精度を改善する。
- DSDの結果はCNN、RNN、LSTM、および画像分類、キャプション生成、音声認識などのタスク全般で堅牢である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。