[論文レビュー] Progressive Skeletonization: Trimming more fat from a network at initialization
本論文は FORCE と 2 つの漸進的剪定方式(Iterative SNIP と FORCE)を導入し、初期化時にネットワークを剪定することで、トレーニング可能性を維持しつつ非常に高い疎性を達成し、SNIP/GRASP を特に極端な疎性で上回ることが多い。いくつかの設定でパラメータの最大 99.5% を剪定できる能力を示す。
Recent studies have shown that skeletonization (pruning parameters) of networks extit{at initialization} provides all the practical benefits of sparsity both at inference and training time, while only marginally degrading their performance. However, we observe that beyond a certain level of sparsity (approx $95\%$), these approaches fail to preserve the network performance, and to our surprise, in many cases perform even worse than trivial random pruning. To this end, we propose an objective to find a skeletonized network with maximum {\em foresight connection sensitivity} (FORCE) whereby the trainability, in terms of connection sensitivity, of a pruned network is taken into consideration. We then propose two approximate procedures to maximize our objective (1) Iterative SNIP: allows parameters that were unimportant at earlier stages of skeletonization to become important at later stages; and (2) FORCE: iterative process that allows exploration by allowing already pruned parameters to resurrect at later stages of skeletonization. Empirical analyses on a large suite of experiments show that our approach, while providing at least as good a performance as other recent approaches on moderate pruning levels, provides remarkably improved performance on higher pruning levels (could remove up to $99.5\%$ parameters while keeping the networks trainable). Code can be found in https://github.com/naver/force.
研究の動機と目的
- コストの高い密な訓練を行わず、トレーニング時および推論時のスパース性を得るための初期化時剪定を動機づける。
- FORCE を、剪定後のトレーニング可能性を捕捉する顕性基準として導入する。
- FORCE を最大化する 2 つの漸進的剪定手順(Iterative SNIP と FORCE)を提案する。
- 非常に高い疎性レベルを含む、データセットとアーキテクチャ全体での堅牢性と有効性を示す。
提案手法
- FORCE を剪定後の顕性として定義する: g(θ̄) = ∂L(θ̄)/∂c を c = ĉ で評価したものは、(∂L(θ̄)/∂θ̄) ∘ θ (Eq. 5) に等しい。
- FORCE objective を定式化する: maxc S(θ, c) = sum_{i in supp(c)} |θ_i ∂L(θ ∘ c)/∂(θ ∘ c)| (Eq. 6)。
- Iterative SNIP を提案:以前に保持した接続を維持しつつ pruning-SNIP objective を解くことで漸進的に剪定 (c_t+1 は c_t を尊重)。
- FORCE を提案:以前剪定された重みの復活を許す漸進的剪定で、疎化を進めつつ疎化ネットワーク上で FORCE 顕性を再計算。
- SNIP と GRASP との比較:SNIP/GRASP は事前剪定顕性に依存し、高疎性で失敗する可能性がある; FORCE は事後剪定顕性を最適化。
- 指数的な疎性スケジュール k_t を使用して剪定ステップを制御 (Eq. 8)。
- 中間マスクが小さな剪定ステップ下で局所最小に近似するという理論的洞察。
実験結果
リサーチクエスチョン
- RQ1初期化時の剪定で極端な疎性レベル(例:>95%)でトレーニング可能な部分ネットワークを得られるか?
- RQ2FORCE の forward-looking な結合感度を最大化することは、疎性が高まるにつれて剪定決定の転移性をより良くするか?
- RQ3Iterative SNIP と FORCE の反復剪定戦略は、SNIP/GRASP のような一発の顕性手法よりも優れているか、特に高疎性で?
- RQ4FORCE(探索)と Iterative SNIP(活用)のトレードオフは、訓練可能なスパースネットワークを見つける際にどう現れるか?
主な発見
- FORCE と Iterative SNIP は、CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet の高疎性領域で、SNIP と GRASP を大きく上回る。
- CIFAR-10 の ResNet50 と VGG19 では、 extreme sparsity(最大 99.9%)でもトレーニング可能なネットワークと、ランダムよりも高い精度を維持する;FORCE は他手法より顕著に高い精度を達成。
- ImageNet では、VGG19 で 90% の疎性(Top-1 70.2、Top-5 89.5)、95% の疎性(Top-1 65.8、Top-5 86.8)を剪定;ResNet50 で 90% の疎性では Top-1 64.9、Top-5 86.5(95% の疎性では Top-1 59.0、Top-5 82.3)。
- FORCE は一部のアーキテクチャで最大 99.5% のパラメータを剪定しつつネットワークをトレーニング可能なままにでき、 prior methods が低下・またはランダム剪定と比較して劣るレベルの疎性を示す。
- Iterative SNIP は一般にロバストで、十分な反復で FORCE の性能に近づくことがあるが、以前剪定した重みの復元を許す FORCE のほうがしばしばより良い結果をもたらす(探索的)。
- 剪定コストと効率:FORCE/Iter SNIP は GRASP-MB より安価で、ヘッセ行列ベースの GRASP よりも計算オーバーヘッドが少なく競争力のあるまたは優れた精度を達成できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。