Skip to main content
QUICK REVIEW

[論文レビュー] Understanding the Role of Training Regimes in Continual Learning

Seyed Iman Mirzadeh, Mehrdad Farajtabar|arXiv (Cornell University)|Jun 12, 2020
Domain Adaptation and Few-Shot Learning参考文献 38被引用数 91
ひとこと要約

本論文は、単純な訓練手法(ドロップアウト、学習率の減衰、小さなバッチサイズ)が損失表面をどのように形成し、連続学習における壊滅的忘却を低減するかを分析し、広い極小値が安定性を高めると提案している。

ABSTRACT

Catastrophic forgetting affects the training of neural networks, limiting their ability to learn multiple tasks sequentially. From the perspective of the well established plasticity-stability dilemma, neural networks tend to be overly plastic, lacking the stability necessary to prevent the forgetting of previous knowledge, which means that as learning progresses, networks tend to forget previously seen tasks. This phenomenon coined in the continual learning literature, has attracted much attention lately, and several families of approaches have been proposed with different degrees of success. However, there has been limited prior work extensively analyzing the impact that different training regimes -- learning rate, batch size, regularization method-- can have on forgetting. In this work, we depart from the typical approach of altering the learning algorithm to improve stability. Instead, we hypothesize that the geometrical properties of the local minima found for each task play an important role in the overall degree of forgetting. In particular, we study the effect of dropout, learning rate decay, and batch size, on forming training regimes that widen the tasks' local minima and consequently, on helping it not to forget catastrophically. Our study provides practical insights to improve stability via simple yet effective techniques that outperform alternative baselines.

研究の動機と目的

  • 古いタスクデータにアクセスせずに、逐次タスク学習における壊滅的忘却を調査する。
  • 忘却と局所極小値の幾何学との関連を損失表面分析を通じて明らかにする。
  • 局所極小値を広げ、安定性を高める実用的手段として、一般的な訓練手法(ドロップアウト、LR減衰、バッチサイズ)を評価する。
  • 標準ベンチマークにおいて、単純な訓練手法を、より複雑な連続学習法と比較する。

提案手法

  • タスク極小値の周りでの2次のテイラー展開と2タスク損失を用いて忘却をモデリングし、忘却をヘッセ行列に関連付ける。
  • 境界 F1 ≈ (1/2) Δw^T Hessian(w1*) Δw を用いて、忘却と曲率およびパラメータ変位を結びつける。
  • 経験的にヘッセ行列の幅を最大固有値 λ1^max によって推定し、忘却との関係を評価する。
  • ドロップアウト、学習率スケジュール、および小さなバッチサイズを用いて、局所極小値を広げ、Δwを減らす訓練レジームを作成する。
  • Rotated MNIST と Permuted MNIST を用いて、広い/狭い極小値の直感を示す。
  • MF ベンチマークにおいて、Stable SGD をプラスティック(素朴な)SGD および最先端の連続学習法と比較する。

実験結果

リサーチクエスチョン

  • RQ1タスク極小値の周りの損失の曲率は、連続タスク学習における忘却とどのように関連するか?
  • RQ2局所極小値を広げる訓練レジームの選択(例:ドロップアウト、初期学習率の大きさと減衰、小さなバッチサイズ)は、忘却を減らすのか?
  • RQ3標準ベンチマークで、単純な最適化手法が複雑な連続学習法を上回ることができるのか?
  • RQ4タスク間でのヘッセ行列の幅と忘却の経験的関係はどのようなものか?

主な発見

  • 広い極小値(より小さなヘッセ固有値)は、Rotated MNIST および Permuted MNIST において忘却の低減と相関する。
  • ドロップアウト、大きな初期学習率と減衰、小さなバッチサイズは、局所極小値を広げ、タスク間のパラメータ変位を小さくする。
  • Stable SGD はプラスティック SGD より忘却を減らす効果が高く、標準ベンチマークで一部の正則化ベースおよびメモリベースの連続学習法を上回ることがある。
  • 忘却境界の厳密さは、Δw のヘッセ行列スペクトラムに対する方向に依存し、忘却における地形の幾何の役割を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。