Skip to main content
QUICK REVIEW

[論文レビュー] Task Agnostic Continual Learning Using Online Variational Bayes

Chen Zeno, Itay Golan|arXiv (Cornell University)|Mar 27, 2018
Domain Adaptation and Few-Shot Learning参考文献 44被引用数 70
ひとこと要約

Bayesian Gradient Descent (BGD) を導入した、タスク非依存の継続学習法で、タスク境界なしでオンラインにウェイト後方分布を更新し、クラス学習のパフォーマンスを向上させるラベルのトリックの利点を示す。

ABSTRACT

Catastrophic forgetting is the notorious vulnerability of neural networks to the change of the data distribution while learning. This phenomenon has long been considered a major obstacle for allowing the use of learning agents in realistic continual learning settings. A large body of continual learning research assumes that task boundaries are known during training. However, research for scenarios in which task boundaries are unknown during training has been lacking. In this paper we present, for the first time, a method for preventing catastrophic forgetting (BGD) for scenarios with task boundaries that are unknown during training --- task-agnostic continual learning. Code of our algorithm is available at https://github.com/igolan/bgd.

研究の動機と目的

  • 未知のタスク境界を持つ継続学習シナリオを定義・分類する。
  • Bayesian Gradient Descent (BGD) をニューラルネットワーク向けのタスク非依存のオンラインベイズ更新則として提示する。
  • タスク非依存条件下でクラス学習性能を向上させるラベルのトリックを導入する。
  • BGD を連続的・離散的なタスク非依存シナリオで実証的に評価し、既存手法と比較する。

提案手法

  • 反復ごとに対角ガウス事後分布 q_n(θ|φ) を用いてネットワーク重みをモデル化する。
  • オンラインベイズから μ(平均)と σ(標準偏差)の閉形式のオンライン更新を単一の明示的モンテカルロ推定を用いて導出する。
  • ε_i ~ N(0,1) に対して θ_i = μ_i + ε_i σ_i の再パラメータ化を用いてバイアスのない勾配を計算する。
  • 更新則: μ_i = m_i − σ_i^2 E[∂L_n/∂θ_i]、および曲率様の項 E[∂L_n/∂θ_i · ε_i] を組み込んだ派生的な σ_i 更新を適用する。
  • モンテカルロ法による K サンプルで期待値を近似し、学習率 η を用いて収束性を調整する。
  • 学習率は不確実性 σ_i および損失の観測曲率に依存するという性質を主張・示す。

実験結果

リサーチクエスチョン

  • RQ1トレーニングとテストの両方でタスク識別子と境界が未知の場合、継続学習はどのように実現できるか。
  • RQ2オンラインベイズ更新(BGD)はタスクスイッチなしのタスク非依存設定で壊滅的な忘却を緩和できるか。
  • RQ3提案されたラベルのトリックはタスク非依存条件下のクラス学習シナリオで特に性能を改善するか。
  • RQ4逐次タスクにおける重みの不確実性(σ)の挙動はタスク非依存継続学習でどのようになるか。

主な発見

MethodClass learning+ Labels trick
Adam19.71 ± 0.0837.52 ± 3.1
SGD19.46 ± 0.0452.71 ± 2.92
Adagrad19.82 ± 0.0950.85 ± 4.69
L222.52 ± 1.0852.49 ± 3.14
EWC19.80 ± 0.0537.98 ± 2.24
Online EWC19.77 ± 0.0437.7 ± 3.27
SI19.67 ± 0.0958.44 ± 3.04
MAS19.52 ± 0.2960.43 ± 3.29
BGD (this paper)19.64 ± 0.0346.34 ± 2.36
Offline (upper bound)97.53 ± 0.30-
  • BGD は連続的なタスク非依存シナリオ(例: permuted MNIST)において、タスク切替情報なしで高い平均精度を維持する。
  • 離散的なタスク非依存設定では、重みの不確実性が少数のパラメータに集中し、複数タスクにわたりタスクに関連するのは一部の重みだけであるという仮説を支持する。
  • BGD は離散的なタスク非依存設定において SI および VCL と同等の性能を発揮する(タスク切替情報を使用せず)。
  • ラベルのトリックはクラス学習性能を著しく向上させ、Split MNIST 全体の平均精度を約20%から約50%へ引き上げる。
  • クラス学習で非共有ヘッドの場合、バッチ内の既存ラベルに対して関連するヘッドのみを訓練できるようにすることで干渉を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。