Skip to main content
QUICK REVIEW

[論文レビュー] Sparse weight activation training

Aamir Raihan|arXiv (Cornell University)|Jan 1, 2021
Advanced Neural Network Applications被引用数 3
ひとこと要約

本論文は、前向きおよび後ろ向きの順伝播・誤差逆伝播の過程で小さな重みと活性化をプルーニングすることで、動的にスパースなネットワーク構造を学習する新しいCNN学習アルゴリズム、スパース重み活性化学習(SWAT)を提案する。SWATは、トレーニングの計算量を50–90%削減し、メモリ使用量を最大90%まで削減し、CIFAR-10、CIFAR-100、ImageNetにおいて、最先端のプルーニング手法と同等またはそれ以上の精度を達成する。

ABSTRACT

Neural network training is computationally and memory intensive. Sparse training can reduce the burden, but it can affect network convergence. In this work, we propose a novel CNN training algorithm Sparse Weight Activation Training (SWAT). SWAT is : (1) more computation and memory-efficient than conventional training, (2) learns a sparse network topology directly, and (3) can be adapted to learn a structured or unstructured sparse topology. SWAT is developed based on insights derived from an empirical sensitivity analysis of network training on six different network architectures and three different datasets. Empirically, we find network convergence is robust to the elimination of small magnitude weights during the forward pass and small magnitude weights and activations during the backward pass. SWAT obtains efficiency by constraining the forward and backward pass during training. SWAT dynamically searches for a sparse topology. The dynamic search of the weights allows SWAT to train a wide variety of architectures such as ResNet, VGG, DenseNet and WideResNet up to 90% sparsity. SWAT demonstrates similar or better performance on CIFAR-10, CIFAR-100, and ImageNet dataset compared to other pruning and sparse learning algorithms. Moreover, SWAT reduces total computations during training by 50% to 90%, reduces memory footprint during the backward pass by 23% to 50% for activations and 50% to 90% for weights.

研究の動機と目的

  • 深層ニューラルネットワークのトレーニングにおける高い計算コストとメモリコストを低減すること。
  • スパース学習手法にしばしば伴う収束不安定性を克服すること。
  • トレーニング中に構造的・非構造的な両方のスパーストポロジーを動的に学習できる学習アルゴリズムを開発すること。
  • 標準ベンチマークでモデルの精度を損なわずに顕著な効率性向上を達成すること。
  • ResNet、VGG、DenseNet、WideResNetなどの多様なアーキテクチャを、最大90%のスパースニティで効率的にトレーニング可能にすること。

提案手法

  • 前向き伝播で小さな重みを除去し、後ろ向き伝播で小さな重みと活性化を除去する動的スパース化戦略を提案する。
  • 6つのアーキテクチャと3つのデータセットにおける感度解析に基づき、実験的に、小さな重みと活性化を削除してもネットワークの収束が安定することを同定する。
  • 前向きおよび後ろ向き伝播の両方を、顕著な重みと活性化のみを更新・保存するように制限するトレーニング制度を導入する。
  • トレーニング中に最適なスパーストポロジーを動的に探索することで、構造的および非構造的両方のスパースニティを可能にする。
  • 実験的感度解析の知見を活用して、繰り返しの微調整や再トレーニングを必要とせずにプルーニングプロセスをガイドする。
  • 繰り返しのプルーニングや微調整フェーズを必要とせず、スパースネットワークのエンドツーエンドトレーニングを可能にする。

実験結果

リサーチクエスチョン

  • RQ1小さな重みと活性化をトレーニング中に除去しても、深層ニューラルネットワークは収束性と精度を維持できるか?
  • RQ2CNNのトレーニングにおいて、モデル性能を劣化させずに、計算量とメモリ使用量をどの程度まで削減できるか?
  • RQ31つのトレーニングアルゴリズムが、多様なアーキテクチャにおいて構造的および非構造的両方のスパーストポロジーを動的に学習できるか?
  • RQ4既存のプルーニングおよびスパース学習技術と比較して、本手法は効率性と精度の面でどのように優れているか?
  • RQ5CIFAR-10、CIFAR-100、ImageNetのような標準ベンチマークで、安定した収束が達成できる最大のスパースニティはどの程度か?

主な発見

  • SWATは、複数のアーキテクチャとデータセットにおいて、総トレーニング計算量を50%から90%まで削減する。
  • 活性化のバックワードパスにおけるメモリ使用量は23%から50%まで削減され、重みでは50%から90%まで削減される。
  • CIFAR-10、CIFAR-100、ImageNetにおいて、既存のプルーニングおよびスパース学習アルゴリズムと同等またはそれ以上の精度を達成する。
  • SWATは、ResNet、VGG、DenseNet、WideResNetアーキテクチャを最大90%のスパースニティでトレーニング可能にし、顕著な性能低下を引き起こさない。
  • 小さな重みと活性化を前向きおよび後ろ向き伝播の両方でプルーニングしても、ネットワークの収束は依然として安定している。
  • 動的スパースネス探索メカニズムにより、SWATは事前に定義されたスパースネスパターンを必要とせず、最適なスパーストポロジーを適応的に学習できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。