Skip to main content
QUICK REVIEW

[論文レビュー] A Signal Propagation Perspective for Pruning Neural Networks at Initialization

Namhoon Lee, Thalaiyasingam Ajanthan|arXiv (Cornell University)|Jun 14, 2019
Advanced Neural Network Applications参考文献 15被引用数 19
ひとこと要約

この論文は、重みの初期化時にニューラルネットワークのプルーニングを説明・改善するための信号伝播の視点を導入し、層ごとのダイナミカル等長性(層のヤコビアンの特異値が1に近いこと)が、信頼性の高い接続感度測定を保証することを示している。データフリーな手法によりプルーニング後のネットワークで直交性を強制することで、訓練可能性と一般化性能が著しく向上し、極端なスパarsityレベルですら、密なベースラインを上回る性能を発揮する。

ABSTRACT

Network pruning is a promising avenue for compressing deep neural networks. A typical approach to pruning starts by training a model and then removing redundant parameters while minimizing the impact on what is learned. Alternatively, a recent approach shows that pruning can be done at initialization prior to training, based on a saliency criterion called connection sensitivity. However, it remains unclear exactly why pruning an untrained, randomly initialized neural network is effective. In this work, by noting connection sensitivity as a form of gradient, we formally characterize initialization conditions to ensure reliable connection sensitivity measurements, which in turn yields effective pruning results. Moreover, we analyze the signal propagation properties of the resulting pruned networks and introduce a simple, data-free method to improve their trainability. Our modifications to the existing pruning at initialization method lead to improved results on all tested network models for image classification tasks. Furthermore, we empirically study the effect of supervision for pruning and demonstrate that our signal propagation perspective, combined with unsupervised pruning, can be useful in various scenarios where pruning is applied to non-standard arbitrarily-designed architectures.

研究の動機と目的

  • 初期化時にプルーニングが、ランダムな重みにもかかわらずなぜ効果的であるかを理解すること。
  • 接続感度(プルーニング基準として用いられる)を信頼性を持って測定できる理論的条件を明確化すること。
  • 信号伝播特性の分析と回復により、プルーニングされたスパースネットワークの訓練可能性を向上させること。
  • 教師なしの手法を用いて、教師信号なしにプルーニングが可能かどうかを調査すること。
  • 初期化時のプルーニングにより、標準的なモデルよりも優れたスパースアーキテクチャを発見する、ニューラルアーキテクチャスカルプティングが可能かどうかを検討すること。

提案手法

  • 接続感度を勾配に基づく指標として形式化し、その信頼性が信号伝播の忠実度に依存することを特定する。
  • 層ごとのダイナミカル等長性を、層のヤコビアンの特異値が1に集中していることで定義し、信頼性ある接続感度測定の十分条件とする。
  • データフリーで二段階の手法を提案:まず接続感度を用いてプルーニングを行い、次に層ごとの直交性を強制して信号伝播を回復する。
  • さまざまなアーキテクチャ(例:ResNet、ワイドな残差ネットワーク)にこの手法を適用し、画像分類タスクでの性能を評価する。
  • 教師なしの代理損失(例:オートエンコーダー損失)を用いてラベルなしで接続感度を計算し、教師なしプルーニングを可能にする。
  • より大きな任意のアーキテクチャから、ベースとなる密なモデルと同等のパラメータ数にまでプルーニングすることでニューラルアーキテクチャスカルプティングを実施し、テスト精度を比較する。

実験結果

リサーチクエスチョン

  • RQ1初期化時にプルーニングが、ランダムな初期化にもかかわらずなぜ効果的なのか。信頼性のある接続感度測定を保証する条件は何か。
  • RQ2プルーニング後のネットワークにおける信号伝播は、その訓練可能性にどのように影響するか。また、プルーニング後にその信号伝播を回復できるか。
  • RQ3教師なしの代理損失を用いることで、有効なプルーニングが達成可能か。
  • RQ4初期化時のプルーニングにより、同じパラメータ数の標準的な密なモデルを上回るスパースアーキテクチャを発見できるか。
  • RQ5プルーニング中にダイナミカル等長性を維持することで、一般化性能と学習安定性がどの程度向上するか。

主な発見

  • 層ごとのダイナミカル等長性(すべての層のヤコビアンの特異値が1に近いこと)が、初期化時のプルーニングにおける信頼性のある接続感度測定の十分条件である。
  • プルーニングはダイナミカル等長性を破壊し、信号伝播の劣化を引き起こし、スパースネットワークの訓練可能性を低下させる。これは、修正なしのプルーニング手法が性能に劣る理由を説明する。
  • 提案手法によるデータフリーな層ごとの直交性回復は、プルーニング後のネットワークの訓練性能と一般化性能を顕著に向上させる。
  • CIFAR-10では、密なResNet20ベースモデルと同等のパラメータ数を持つプルーニング済みスパースネットワークが、一般化誤差を低く抑え(例:4.8% vs. 5.2%)、優れた性能を示した。
  • 代理損失(例:オートエンコーダー損失)を用いた教師なしプルーニングは、極端なスパarsity(例:98.4%のプルーニング率)でも、教師ありプルーニングと競合する精度を達成した。
  • 初期化時のプルーニングによるニューラルアーキテクチャスカルプティングにより、より太いネットワークから出発した場合に特に顕著に、元の密なResNet20を上回るスパースアーキテクチャが発見された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。