[論文レビュー] Reinforced Continual Learning
本論文は Reinforced Continual Learning (RCL) を提案し、強化学習を用いて新しいタスクごとにニューラルネットワークを適応的に拡張し、検証精度の最大化とモデルの複雑さおよび忘却の最小化を目指します。RCLは、追加パラメータを減らしつつ、連続的なMNISTのバリアントおよびIncremental CIFAR-100で複数のベースラインを上回ります。
Most artificial intelligence models have limiting ability to solve new tasks faster, without forgetting previously acquired knowledge. The recently emerging paradigm of continual learning aims to solve this issue, in which the model learns various tasks in a sequential fashion. In this work, a novel approach for continual learning is proposed, which searches for the best neural architecture for each coming task via sophisticatedly designed reinforcement learning strategies. We name it as Reinforced Continual Learning. Our method not only has good performance on preventing catastrophic forgetting but also fits new tasks well. The experiments on sequential classification tasks for variants of MNIST and CIFAR-100 datasets demonstrate that the proposed approach outperforms existing continual learning alternatives for deep networks.
研究の動機と目的
- タスクが到着するにつれてネットワーク容量を適応的に拡張して、スケールする継続学習を促進する。
- 追加パラメータを訓練する間、以前のタスクのパラメータを凍結して忘却を防ぐ。
- タスクごとにほぼ最適なアーキテクチャ拡張を自動的に探索するために、強化学習を活用する。
提案手法
- コントローラ(LSTM)は、新しいタスクに対してレイヤーごとに追加するフィルタ/ノードの数を決定する一連のアクションを生成する。
- タスクネットワークは適応的に拡張され、セマンティックドリフトを避けるため新しく追加されたパラメータのみが新しいタスクの訓練対象となる。
- 報酬は検証精度とネットワークの複雑さを組み合わせて、性能と効率のバランスを取る(R_t = A_t + α C_t)。
- アクタークリティックフレームワークを用いたポリシー勾配により、期待報酬を最大化するようコントローラと価値ネットワークを更新する。
- トレーニングはタスクごとに進行し、コントローラの出力に従ってネットワークを拡張し、以前のタスクのパラメータを凍結する。)
実験結果
リサーチクエスチョン
- RQ1強化学習は、継続学習における忘却を軽減する最適なアーキテクチャ拡張を効果的に探索できるか。
- RQ2逐次タスクにわたる適応的拡張は、精度とモデルの複雑さにどのように影響するか。
- RQ3RCLは、追加パラメータを少なくして、固定サイズや他の拡張可能なアーキテクチャより忘却をより効果的に防ぐか。
主な発見
| データセット | IN | EWC | GEM | DEN | PGN | RCL |
|---|---|---|---|---|---|---|
| MNIST permutations | 173 | 1319 | 1628 | 21686 | 452 | 34583 |
| MNIST mix | 170 | 1342 | 1661 | 19690 | 451 | 23626 |
| CIFAR-100 | 149 | 508 | 7550 | 1428 | 167 | 3936 |
- RCLは、MNISTの順列、MNISTミックス、Incremental CIFAR-100において、PGNおよびDENよりも精度が高く、モデルサイズが小さくなる。
- RCLは追加パラメータ数を大幅に削減(CIFAR-100ではPGNおよびDENと比較してそれぞれ42%および53%削減の例)。
- 忘却はRCLとPGNで緩和される一方、固定サイズアプローチは壊滅的な忘却を示す。DENは以前のパラメータの再訓練のため忘却を完全には防げない。
- α(モデルの複雑さの重み)を増やすとパラメータ数は減るが、精度がわずかに低下する可能性があり、性能とサイズのトレードオフを可能にする。
- RCLはDENよりハイパーパラメータを少なく、設定をまたいでより安定した性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。