QUICK REVIEW

[論文レビュー] Dynamic Model Pruning with Feedback

Tao Lin, Sebastian U. Stich|arXiv (Cornell University)|Jun 12, 2020

Advanced Neural Network Applications参考文献 47被引用数 87

ひとこと要約

DPFはエラーフィードバックを用いた動的剪定を導入し、一度のパスで疎なネットワークを訓練し、剪定エラーを修正するために密なモデルを同時に維持し、CIFAR-10とImageNetで再訓練なしに最先端の結果を達成する。

ABSTRACT

Deep neural networks often have millions of parameters. This can hinder their deployment to low-end devices, not only due to high memory requirements but also because of increased latency at inference. We propose a novel model compression method that generates a sparse trained model without additional overhead: by allowing (i) dynamic allocation of the sparsity pattern and (ii) incorporating feedback signal to reactivate prematurely pruned weights we obtain a performant sparse model in one single training pass (retraining is not needed, but can further improve the performance). We evaluate our method on CIFAR-10 and ImageNet, and show that the obtained sparse models can reach the state-of-the-art performance of dense models. Moreover, their performance surpasses that of models generated by all previously proposed pruning schemes.

研究の動機と目的

モデル圧縮を動機づけ、低性能デバイス上での展開を過度な再訓練なしに可能にする。
剪定エラーを補正するために、密なモデルと剪定済みモデルを同時に維持する動的剪定法を開発する。
CIFAR-10とImageNetで最先端の精度を持つ疎なネットワークを得る。
提案スキームの下で凸・非凸目的関数の収束解析を提供する。

提案手法

勾配が剪定後の重みに対して計算され、完全な密な重みベクトルに適用される Dynamic Pruning with Feedback (DPF) を提案する。
トレーニング中に以前剪定された重みを再活性化できるエラーフィードバック機構を使用する。
マスク m_t を w_t に適用して剪定を実行し、tilde{w}_t = m_t ∗ w_t を得て、更新は w_{t+1} = w_t - γ_t g(m_t tilde{w}_t) となる。
e_t = tilde{w}_t - w_t として、w_{t+1} = w_t - γ_t g(w_t + e_t) の同値性を示し、エラーフィードバック SGD へリンクする。
滑らかさと有界な確率的勾配の仮定のもと、凸（強凸）および非凸目的関数の収束保証を提供する。
マスキング以外の他の圧縮器（例：量子化）にも同じ delta_t フレームワーク内で拡張する。

実験結果

リサーチクエスチョン

RQ1エラーフィードバック付きの動的剪定は大規模データセット上で accuracy の大幅な低下なく高いスパース性を達成できるか。
RQ2同時に密なモデルを維持し、剪定済みモデルで計算された勾配を適用することは一般化を改善し、早期剪定からの回復を可能にするか。
RQ3標準的な最適化仮定の下で、DPF の凸および非凸目的関数の収束特性はどうなるか。
RQ4CIFAR-10 や ImageNet などのデータセットに対して、DPF は既存の剪定方式（一括、段階的、動的）とどのように比較されるか。

主な発見

DPF はスパース性を考慮した剪定において最先端の性能を達成し、CIFAR-10 および ImageNet で既存の動的および静的剪定法を上回る。
DPF は大規模モデルで約99%程度の高いスパース性を実現しつつ、実用的な精度を維持する。
剪定マスクは訓練中に収束することを示し、終盤には僅かな重みのみが変更される。
lottery ticket タイプの剪定と比較して、DPF はゼロから訓練することや広範な微調整を必要とせず、非常に高いスパース性レベルで特に良好な性能を示す。
理論結果は、提案されたエラーフィードバック剪定スキームの下ですべての凸および非凸目的関数の非漸近的収束保証を提供する。
実験は CIFAR-10 および ImageNet において SNIP、Incremental pruning、DSR、Sparse Momentum を上回る一貫した利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。