[論文レビュー] Pruning neural networks without any data by iteratively conserving synaptic flow
本論文はデータ非依存の剪定手法である Iterative Synaptic Flow Pruning (SynFlow) を提案し、層崩壊を回避し、Maximal Critical Compression を達成する。複数のモデルとデータセットに対して、データ駆動型の剪定ベースラインと同等かそれ以上の性能を示す。
Pruning the parameters of deep neural networks has generated intense interest due to potential savings in time, memory and energy both during training and at test time. Recent works have identified, through an expensive sequence of training and pruning cycles, the existence of winning lottery tickets or sparse trainable subnetworks at initialization. This raises a foundational question: can we identify highly sparse trainable subnetworks at initialization, without ever training, or indeed without ever looking at the data? We provide an affirmative answer to this question through theory driven algorithm design. We first mathematically formulate and experimentally verify a conservation law that explains why existing gradient-based pruning algorithms at initialization suffer from layer-collapse, the premature pruning of an entire layer rendering a network untrainable. This theory also elucidates how layer-collapse can be entirely avoided, motivating a novel pruning algorithm Iterative Synaptic Flow Pruning (SynFlow). This algorithm can be interpreted as preserving the total flow of synaptic strengths through the network at initialization subject to a sparsity constraint. Notably, this algorithm makes no reference to the training data and consistently competes with or outperforms existing state-of-the-art pruning algorithms at initialization over a range of models (VGG and ResNet), datasets (CIFAR-10/100 and Tiny ImageNet), and sparsity constraints (up to 99.99 percent). Thus our data-agnostic pruning algorithm challenges the existing paradigm that, at initialization, data must be used to quantify which synapses are important.
研究の動機と目的
- initialization に基づく剪定における層崩壊の failure mode を説明する。
- シナプス顕性に対するニューロン単位およびネットワーク単位の保存則を確立する。
- データ非依存の剪定アルゴリズムを開発し、Maximal Critical Compression を保証する。
- SynFlow が多様なモデルとデータセットに対して最先端のデータ依存剪定法と同等または上回ることを示す。
提案手法
- シナプス顕性を S(θ) = ∂R/∂θ ⊙ θ として形式化し、保存則(ニューロン単位およびネットワーク単位)を証明する。
- 平均層スコアが層サイズに反比例してスケールすることを示し、勾配ベースの単発剪定における層崩壊を説明する。
- データ非依存の損失 R_SF = 1^T (∏_l |θ^[l]|) 1 を用いた Iterative Synaptic Flow Pruning (SynFlow) を導入し、正の顕性スコアを生む。
- 反復的で正の保守的なスコアリングが層ごとの保存を達成することを示すとき、Maximal Critical Compression(定理 3)を満たす。
- データを必要としない反復マスキングと指数的剪定スケジュールを備えたアルゴリズムを提供し、層崩壊を回避する。
- SynFlow をランダム、量的剪定、SNIP、GraSP と 12 組のモデル-データセット対で経験的にベンチマークし、高圧縮領域で最先端の性能を示す。
実験結果
リサーチクエスチョン
- RQ1初期化時に訓練やデータなしで高いスパースな訓練可能なサブネットワークを識別できるか。
- RQ2データ駆動の単発剪定における層崩壊が何に起因するのか、そしてそれを回避できるか。
- RQ3データ非依存の剪定法が Maximal Critical Compression を達成し、アーキテクチャやデータセットを超えてデータ依存法と競争できるか。
- RQ4深いネットワークにおけるシナプス顕性と剪定ダイナミクスを保存則がどのように支配するか。
主な発見
- SynFlow は高圧縮領域で一貫してベースラインを上回り、テストされたモデルとデータセット全体で層崩壊を回避する。
- SynFlow はグローバルなマスキングと反復評価の下で構築的に Maximal Critical Compression を達成する。
- 保存則(ニューロン単位およびネットワーク単位)は、勾配ベースのスコアがなぜ大きな層を早期に剪定することを好むのか、そして反復がこれをどう緩和するのかを説明する。
- 反復的な量的剪定は層崩壊を回避し、勾配降下ダイナミクスがスコアを層ごとの保存パターンへ導く。
- SynFlow を用いたデータ非依存の剪定は、SNIP や GraSP のようなデータ依存法と同等またはそれを超えることができ、初期化時に訓練データを必要とするという前提に挑戦する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。