Skip to main content
QUICK REVIEW

[論文レビュー] Continual Learning via Neural Pruning

Siavash Golkar, M. Kagan|arXiv (Cornell University)|Mar 11, 2019
Domain Adaptation and Few-Shot Learning参考文献 17被引用数 90
ひとこと要約

CLNP trains new tasks in the unused capacity of a sparsified fixed-capacity network, ensuring zero forgetting of previous tasks while providing graceful forgetting to balance sparsity and performance.

ABSTRACT

We introduce Continual Learning via Neural Pruning (CLNP), a new method aimed at lifelong learning in fixed capacity models based on neuronal model sparsification. In this method, subsequent tasks are trained using the inactive neurons and filters of the sparsified network and cause zero deterioration to the performance of previous tasks. In order to deal with the possible compromise between model sparsity and performance, we formalize and incorporate the concept of graceful forgetting: the idea that it is preferable to suffer a small amount of forgetting in a controlled manner if it helps regain network capacity and prevents uncontrolled loss of performance during the training of future tasks. CLNP also provides simple continual learning diagnostic tools in terms of the number of free neurons left for the training of future tasks as well as the number of neurons that are being reused. In particular, we see in experiments that CLNP verifies and automatically takes advantage of the fact that the features of earlier layers are more transferable. We show empirically that CLNP leads to significantly improved results over current weight elasticity based methods.

研究の動機と目的

  • 崩壊的忘却を回避するため、固定容量制約下での生涯学習を動機づける。
  • 将来のタスクのために再利用可能な特徴経路を作るための、活性化に基づくニューラルプルーニングを提案する。
  • 僅かな精度低下と引き換えに容量を回復させる優雅な忘却を導入する。
  • 層間の転移性を評価するための、残りの自由ニューロンと再利用されたニューロンの診断を提供する。
  • MNISTとCIFARのベンチマークで、ウェイト弾性法より実証的な改善を示す。

提案手法

  • 活性化に基づくスパース性を用いて、ネットワークをactive(活性化)、inactive(非活性)、interference(干渉)コンポーネントに分割する。
  • 非活性ニューロンに接続された自由な重みだけを更新して新しいタスクを訓練し、干渉重みはゼロに設定する。
  • 平均ニューロン活性に基づくL1重み規制と事後のニューロンプルーニング手順を適用してスパース性を誘導する。
  • 単一ヘッドまたはマルチヘッドのゲーティング/マスキング方式を導入して、前のタスクを忘れずにタスク出力を管理する。
  • 最良値の小さなマージン内で検証精度を維持するスパースレベルを選択して、優雅な忘却戦略を採用する。
  • 層間での残りの自由ニューロンと転送された特徴の単純な診断を提供する。

実験結果

リサーチクエスチョン

  • RQ1活性化に基づくスパース性は、固定容量ネットワークが、学習済みのタスクを忘れずに多数のタスクを学習できるようにしますか?
  • RQ2層を横断した特徴の再利用は、継続学習における転移学習と全体的な性能にどう影響しますか?
  • RQ3優雅な忘却を導入することで、以前のタスクの精度を維持しつつ長期的な容量が改善しますか?
  • RQ4継続学習中の容量使用量と転移性を定量化する診断とは何ですか?

主な発見

方法精度(%)
Single Task SGD98.48 ± 0.05
Kirkpatrick et al. [9]97.0
Zenke et al. [21]97.2
Cheung et al. [2]97.6
CLNP (ours)98.42 ± 0.04
  • CLNPは、固定容量でタスクをまたいだ忘却なしに、置換MNISTでほぼ単一タスクSGD精度を達成します。
  • 置換MNIST実験では、CLNPは98.42% ± 0.04%で、単一タスクSGDの98.48% ± 0.05%および競合手法の97.0–97.6%に対して達成。
  • このアプローチは、初期層がより転移可能な特徴を提供し、後期層は新しいタスク使用の成長を示すことを明らかにする。
  • CLNPは、10タスク後にも顕著な容量を残し(ある設定で層1: 18%、層2: 40%)、特定の構成下で最終容量枯渇の前に約25タスクを可能にする。
  • CIFAR-10 / CIFAR-100の wide single-head ネットワークでの実験は、複数タスクに対する堅牢性と、優雅なマージン(1–4%)の下での忘却制御を示す。
  • 後剪定後の微調整を伴うより高度なスパース化変種は、CIFARの実験で性能をさらに向上させ、忘却を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。