[論文レビュー] Learning to Continually Learn
本論文はニューロモジュレーション機構を備えたアーキテクチャ(ANML)をメタ学習によって獲得し、破局的忘却なしに継続学習を可能にし、600の連続クラスへ拡張する。OMLやスクラッチ/事前学習ベースラインなど従来手法を上回る。
Continual lifelong learning requires an agent or model to learn many sequentially ordered tasks, building on previous knowledge without catastrophically forgetting it. Much work has gone towards preventing the default tendency of machine learning models to catastrophically forget, yet virtually all such work involves manually-designed solutions to the problem. We instead advocate meta-learning a solution to catastrophic forgetting, allowing AI to learn to continually learn. Inspired by neuromodulatory processes in the brain, we propose A Neuromodulated Meta-Learning Algorithm (ANML). It differentiates through a sequential learning process to meta-learn an activation-gating function that enables context-dependent selective activation within a deep neural network. Specifically, a neuromodulatory (NM) neural network gates the forward pass of another (otherwise normal) neural network called the prediction learning network (PLN). The NM network also thus indirectly controls selective plasticity (i.e. the backward pass of) the PLN. ANML enables continual learning without catastrophic forgetting at scale: it produces state-of-the-art continual learning performance, sequentially learning as many as 600 classes (over 9,000 SGD updates).
研究の動機と目的
- 継続的 lifelong 学習を破局的忘却なしに促進することを動機づけ、 formalize する。
- activations をゲートし選択的プラスティシティを制御するメタ学習済みのニューモードユレーションアーキテクチャを提案する。
- Omniglot 上で数百の連続タスクへのスケーラビリティを実証する。
- ANML を OML、事前学習、ゼロからのトレーニングなどのベースラインと比較する。
提案手法
- 文脈依存の活性化を介して予測ネットワーク(PLN)の前方伝播をゲートするニューモジュラトリブ(NM)ネットワークを導入する。
- outer loop で NM と PLN の初期化をメタ学習する。内ループの更新は NM ゲーティングによって影響を受ける特定の PLN 重みのみを修正する。
- Online Aware Meta-Learning(OML)目的を使用して、内ループ SGD ステップを跨いで新しいクラスを忘れずに学習することを報酬する。
- Omniglot でメタトレーニングとメタテストを評価し、 interleaved なトレーニングを近似するため remember set をサンプリングして忘却を防ぐ。
- ANML を OML、Training from Scratch、Pretraining and Transfer、および OML バリアントなどのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1ニューロモジュレーションによるゲーティング機構をメタ学習で学習することは、連続タスク学習における破局的忘却を低減できるか。
- RQ2文脈依存ゲーティングは選択的活性化と選択的プラスティシティを可能にし、 hundreds のクラスへ連続学習をスケールさせるか。
- RQ3ANML は Omniglot における既存のメタ学習および継続学習のベースラインと比較して、メタテストのトレーニングおよびテスト性能でどうなるか。
主な発見
- ANML はメタテストのトレーニング正確度が、テストの軌道長さ全てで OML および他のベースラインを大きく上回る。
- ANML は 600 のメタテストクラスで 63.8% のメタテストテスト正確度を達成し、OML は 18.2%、OML-OLFT は 44.2% だった。
- Scratch および Pretraining ベースラインは、軌道長が長い場合に多くがほぼ 0% に近い性能で大幅に劣る。
- ANML は最大 600 の連続 Omniglot クラスで忘れずに学習することを示し、いくつかの設定では oracle i.i.d. 処理よりも優れている。
- ゲーティングは activations をスパースでタスク適切な表現へ抑えつつ、平均的な活性を広く保つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。