[論文レビュー] Exploring Sparsity in Recurrent Neural Networks
本論文は、RNNの訓練中に重みを段階的に0にする剪定ベースの手法を提案し、精度を維持または向上させつつ高度に疎なモデルと顕著な速度向上を実現する。
Recurrent Neural Networks (RNN) are widely used to solve a variety of problems and as the quantity of data and the amount of available compute have increased, so have model sizes. The number of parameters in recent state-of-the-art networks makes them hard to deploy, especially on mobile phones and embedded devices. The challenge is due to both the size of the model and the time it takes to evaluate it. In order to deploy these RNNs efficiently, we propose a technique to reduce the parameters of a network by pruning weights during the initial training of the network. At the end of training, the parameters of the network are sparse while accuracy is still close to the original dense neural network. The network size is reduced by 8x and the time required to train the model remains constant. Additionally, we can prune a larger dense network to achieve better than baseline performance while still reducing the total number of parameters significantly. Pruning RNNs reduces the size of the model and can also help achieve significant inference time speed-up using sparse matrix multiply. Benchmarks show that using our technique model size can be reduced by 90% and speed-up is around 2x to 7x.
研究の動機と目的
- モバイルおよび組み込みデバイスへの展開を可能にするために、RNNのパラメータ数を削減する動機付け。
- 追加の再訓練を必要とせず、訓練中に得られる疎な重み行列を生み出す剪定法を開発する。
- 剪定によりモデルサイズを削減しつつ、精度を維持または向上できることを示す。
- 疎な再帰層からの潜在的推論速度向上を定量化し、展開の含意を議論する。
提案手法
- 重みごとにマスクを維持し、単調に増加する剪定閾値を用いる。
- 訓練中に定期的に更新される層ごとの閾値以下のパラメータを0にして剪定する。
- 少数のハイパーパラメータ(start_itr, ramp_itr, end_itr, theta, phi, freq)で制御される層固有の閾値関数を使用する。
- 再帰層および線形層を剪定する;バイアスやバッチ正規化パラメータは剪定しない。
- グラデュアル剪定をハード剪定およびより大きな密なベースラインと比較して精度を回復させる。
- Deep Speech 2フレームワーク内でGRUおよびベーシックなRNNアーキテクチャへの適用性を実証する。
実験結果
リサーチクエスチョン
- RQ1訓練中のRNN重み剪定は最小限の精度低下で高い疎性を達成できるか?
- RQ2最終性能とパラメータ削減の観点で、徐々の剪定はハード剪定とどう比較されるか?
- RQ3実際のハードウェア上での疎なRNNの実用的な展開メリット(メモリ、帯域幅、速度)は何か?
主な発見
- 剪定後、再帰層と線形層で約88%〜92%の疎性を達成。
- 剪定した大きなモデル(例:2560–3072個の隠料ユニット)は、パラメータ数を大幅に削減しつつ、密ベースラインを上回るか、密ベースラインとほぼ同等の性能を示す。
- 類似のパラメータ数に対して、グラデュアル剪定はハード剪定より約7%–9%高い性能を示す。
- 疎なRNNは大幅なメモリ圧縮を示す(Deep Speech 2: 268 MBから ~32–64 MBへ; GRU: 460 MBから ~50 MBへ)。
- GEMM/SpMVベンチマークは、層サイズとGRUかRNNかに依存して、高い疎性で再帰層の速度向上を3倍〜7倍示す。
- 剪定は他の一部の従来法と比較して訓練時間を短縮し、量子化と組み合わせるとオンデバイス展開を可能にすることがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。