[論文レビュー] Continual Learning with Adaptive Weights (CLAW)
CLAWは、変分推論を用いて、タスク間でどのニューロンを局所的に適応させるか、どのニューロンをグローバルに共有するかを自動で決定する確率的 continual learningフレームワークを提案する。これにより、事前に定義されたアーキテクチャ分割の必要がなくなる。CLAWは、モデルサイズを拡大せずに、災難的忘却を最小限に抑え、前方転送を最大化するデータ駆動型アーキテクチャ適応により、6つのベンチマークで最先端の性能を達成する。
Approaches to continual learning aim to successfully learn a set of related tasks that arrive in an online manner. Recently, several frameworks have been developed which enable deep learning to be deployed in this learning scenario. A key modelling decision is to what extent the architecture should be shared across tasks. On the one hand, separately modelling each task avoids catastrophic forgetting but it does not support transfer learning and leads to large models. On the other hand, rigidly specifying a shared component and a task-specific part enables task transfer and limits the model size, but it is vulnerable to catastrophic forgetting and restricts the form of task-transfer that can occur. Ideally, the network should adaptively identify which parts of the network to share in a data driven way. Here we introduce such an approach called Continual Learning with Adaptive Weights (CLAW), which is based on probabilistic modelling and variational inference. Experiments show that CLAW achieves state-of-the-art performance on six benchmarks in terms of overall continual learning performance, as measured by classification accuracy, and in terms of addressing catastrophic forgetting.
研究の動機と目的
- データに基づいてネットワークアーキテクチャを動的に適応させることで、継続的学習における災難的忘却を解消すること。
- 共有(グローバル)とタスク固有(ローカル)のネットワーク部品の手作業で設計された固定分割の必要を排除すること。
- モデル効率を維持しながら、柔軟でデータ駆動型のパラメータ共有の学習を可能にすること。
- 将来のタスクへの知識転送(前方転送)と過去のタスクのパフォーマンスの保持(後方安定性)の両方を向上させること。
- 既存の継続的学習パイプラインと互換性があるスケーラブルで段階的な推論フレームワークの開発
提案手法
- CLAWは、段階的な事後分布更新を用いた確率的ベイジアンフレームワークを用いて、Variational Continual Learning (VCL) を拡張する。
- 各ニューロンに対して、そのニューロンが局所的に適応されるかグローバルに共有されるかを制御する2値スイッチ変数を導入する。
- 各ニューロンごとに、タスク固有の更新の大きさを制御する2つの連続的適応パラメータを学習する。
- すべてのパラメータ、特に2値スイッチも、アンモライズド推論スキームを用いて統合的に変分推論により推論する。
- 過去のデータを再トレーニングせずに段階的な学習が可能となり、安定性を維持するとともに前方転送を可能にする。
- 既存のニューロンを再利用することでアーキテクチャの拡張を回避し、リプレイデータの保存や生成も不要である。
実験結果
リサーチクエスチョン
- RQ1継続的学習フレームワークは、タスク間でどのネットワーク部品を共有すべきか、どの部品を局所的に適応すべきかを自動で決定できるか?
- RQ2事前のアーキテクチャ制約なしに、データ駆動的かつ確率的な方法でアーキテクチャ適応を学習できるか?
- RQ3このようなフレームワークは、災難的忘却をどれほど軽減できるか、同時に前方転送をどれほど向上できるか?
- RQ4モデルサイズの増加やメモリリプレイの必要がない状態で、提案手法が最先端の性能を達成できるか?
- RQ5CLAWの性能は、既存の正則化法、アーキテクチャベース法、メモリベース法と比較してどのように異なるか?
主な発見
- CLAWは、Split MNIST、notMNIST、Fashion-MNIST、Omniglot、CIFAR-100の5つのデータセットを用いた6つの実験において、平均精度で最先端の性能を達成した。
- Split MNISTベンチマークでは、複数の後続タスクを学習した後でも、初期タスクのパフォーマンスを高い水準で維持しており、忘却が最小限であることが示された。
- 前方転送評価では、より多くの先行タスクで学習した場合に最終タスクのパフォーマンスが最も大きく向上し、5つの実験のうち4つですべてのベースラインを上回った。
- EWC、LwF、その他の正則化ベース手法と比較して、性能保持曲線から、CLAWが災難的忘却をより効果的に軽減していることが示された。
- 新しいニューロンを追加せず、リプレイデータも不要なため、モデル効率を維持しながら競争力のある結果を達成した。
- 安定性(後方転送)と柔軟性(前方転送)の両面で、CLAWは既存の手法と同等または優れた性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。