Skip to main content
QUICK REVIEW

[論文レビュー] Winning the Lottery with Continuous Sparsification

Pedro Savarese, Hugo Silva|arXiv (Cornell University)|Dec 10, 2019
Advanced Neural Network Applications参考文献 35被引用数 32
ひとこと要約

論文は Continuous Sparsification を紹介する。これは決定論的な L0 正則化ベースの剪定法で、訓練中に連続的にネットワークをスパース化し、早期イテレートから再訓練すると dense モデルの性能と同等またはそれを上回ることができる疎サブネットワークの並列チケット探索を可能にする。CIFAR-10(VGG-16, ResNet-20)と ImageNet(ResNet-50)で、最先端の剪定およびチケット探索法を上回る。

ABSTRACT

The search for efficient, sparse deep neural network models is most prominently performed by pruning: training a dense, overparameterized network and removing parameters, usually via following a manually-crafted heuristic. Additionally, the recent Lottery Ticket Hypothesis conjectures that, for a typically-sized neural network, it is possible to find small sub-networks which, when trained from scratch on a comparable budget, match the performance of the original dense counterpart. We revisit fundamental aspects of pruning algorithms, pointing out missing ingredients in previous approaches, and develop a method, Continuous Sparsification, which searches for sparse networks based on a novel approximation of an intractable $\ell_0$ regularization. We compare against dominant heuristic-based methods on pruning as well as ticket search -- finding sparse subnetworks that can be successfully re-trained from an early iterate. Empirical results show that we surpass the state-of-the-art for both objectives, across models and datasets, including VGG trained on CIFAR-10 and ResNet-50 trained on ImageNet. In addition to setting a new standard for pruning, Continuous Sparsification also offers fast parallel ticket search, opening doors to new applications of the Lottery Ticket Hypothesis.

研究の動機と目的

  • prior L0 ベースのアプローチのギャップに対処し、剪定と Lottery Ticket Hypothesis を動機づける。
  • L0 正則化の決定論的で連続的緩和を開発し、疎マスクを学習する。
  • Continuous Sparsification が標準ベンチマークでヒューリスティック剪定および従来の L0 法よりも優れていることを示す。
  • 効率的で並列可能なチケット探索を実証し、高度に疎で高性能なサブネットワークを得る。

提案手法

  • 剪定を L0 正則化目的として定式化し、二値マスクを決定論的で温度制御されたシグモイド代替手段で再パラメータ化する。
  • β を用いた連続パスでマスクを柔らかいゲートからバイナリゲートへ段階的に硬化させる。
  • β が訓練中にアニーリングされることで、L(f(...; sigmoid(βs) ⊙ w)) + λ ||sigmoid(βs)||1 を最小化する。
  • 重みを rewind せずに剪定を継続するため、ラウンド間でマスキングパラメータをリセット・再初期化する。
  • 最終的に m = H(s) のバイナリマスクを出力し、必要に応じてゼロ一 sparsity を保証する。
  • チケット探索を適用する際、β を 1 にリセットして複数のラウンドを実行し、重みを跨いで再利用/調整する(全リワインドは不要)。

実験結果

リサーチクエスチョン

  • RQ1L0 正則化形式がヒューリスティック剪定なしで競争力のある疎サブネットワークを生み出せるか。
  • RQ2決定論的で連続的な緩和は、確率的な L0 法と比べてサブネットワークの疎性、訓練安定性、再訓練性を改善するか。
  • RQ3Continuous Sparsification は、Iterative Magnitude Pruning (IMP) で見つかったものより勝つチケットを高速に、並列で発見できるか。

主な発見

  • Continuous Sparsification により、再訓練時に dense モデルの精度と同等またはそれを上回るサブネットワークが、高いスパース性レベルで CIFAR-10 および ImageNet の設定で得られる。
  • CS によって得られる最も疎な一致サブネットワークは、IMP/IMP-C のものより高精度ではるかに疎になることがある。
  • CS は CIFAR-10 の VGG-16 および ResNet-20 で精度を保ちながら剪定の最先端の疎性を達成し、ResNet-50/ImageNet でも競合的な結果を示す。
  • チケット探索を CS で行うと、dense モデルを約 1% 上回る高度に疎なサブネットワークを見つけることがある。
  • 並列実行時、CS は複数のチケットを生成する際の総訓練エポック数を劇的に削減する(報告された CIFAR-10 実験では 425 対 2550 エポック)。
  • CS は前例のある確率的 L0 アプローチおよび他の剪定・チケット探索手法を上回り、疎性と精度の新しいベンチマークを確立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。