[論文レビュー] Selfless Sequential Learning
論文はSLNIDを導入する。SLNIDは稀 Sparse で局所的に抑制され、タスク重要度を考慮したニューロン活性化を促す表現ベースの正則化子で、固定モデル容量での生涯学習を改善する。
Sequential learning, also called lifelong learning, studies the problem of learning tasks in a sequence with access restricted to only the data of the current task. In this paper we look at a scenario with fixed model capacity, and postulate that the learning process should not be selfish, i.e. it should account for future tasks to be added and thus leave enough capacity for them. To achieve Selfless Sequential Learning we study different regularization strategies and activation functions. We find that imposing sparsity at the level of the representation (i.e.~neuron activations) is more beneficial for sequential learning than encouraging parameter sparsity. In particular, we propose a novel regularizer, that encourages representation sparsity by means of neural inhibition. It results in few active neurons which in turn leaves more free neurons to be utilized by upcoming tasks. As neural inhibition over an entire layer can be too drastic, especially for complex tasks requiring strong representations, our regularizer only inhibits other neurons in a local neighbourhood, inspired by lateral inhibition processes in the brain. We combine our novel regularizer, with state-of-the-art lifelong learning methods that penalize changes to important previously learned parts of the network. We show that our new regularizer leads to increased sparsity which translates in consistent performance improvement %over alternative regularizers we studied on diverse datasets.
研究の動機と目的
- 固定モデル容量の下で生涯学習を動機づけ、将来のタスクを収容できるようにする。
- タスク間の干渉を減らすために、表現の疎性とパラメータの疎性を調査する。
- 局所的なニューロン抑制とニューロン重要度割引を実装する新規正則化子(SLNID)を提案する。
- 表現ベースの疎性とSLNIDが、さまざまなデータセットとベースラインで性能を向上させることを示す。)
提案手法
- MAS/EWC風の重要性維持と表現ベースの活性化疎性を組み合わせた正則化フレームワークを提案する。
- 局所的ニューロン抑制と割引を通じたSparse coding(SLNID)を導入し、近接ニューロンの同時活性化を抑制する。
- 現在のタスクで重要性があるニューロンが抑制から保護されるよう、ニューロン重要度割引を用いてSLNIDを拡張する。
- 過去のタスクの重要ニューロンが現在のタスクで関与する場合に抑制から保護するよう、SLNIDを局所的かつガウシアン重み付けの抑制項として隠れ層活性化に対して定式化する。
- SLNIDをMAS(およびEWC)と組み合わせて互換性を示し、permuted MNIST、CIFAR-100、Tiny ImageNetで評価する。
実験結果
リサーチクエスチョン
- RQ1ニューロン活性化の疎性(表現の疎性)を課すことは、容量を固定したモデルでパラメータの疎性より生涯学習の性能を向上させるか?
- RQ2局所的な(グローバルでない)ニューロン抑制とニューロン重要度割引を組み合わせることで、過去の知識を保持しつつ将来のタスクのための容量を解放できるか?
- RQ3SLNIDは多様なデータセット(パーミューテッドMNIST、CIFAR-100、Tiny ImageNet)と異なる基盤LLL手法(MAS、EWC)でどのように機能するか?
- RQ4SLNIDは逐次タスクにおける容量使用(アクティブ/重要ニューロン)と表現(疎性/非相関)にどのような影響を与えるか?
主な発見
- 表現ベースの正則化は、逐次学習設定でパラメータベース系の正則化よりも優れている。
- SLNID正則化はエンド・オブ・シーケンスの精度を向上させ、データセット全体で将来のタスクのための容量をより多く確保できる。
- 局所抑制とニューロン重要度割引は忘却への頑健性を改善し、パーミューテッドMNIST、CIFAR-100、Tiny ImageNetのシーケンスで強力な基準に対して数パーセントポイントの利得を達成する。
- SLNIDをMAS(およびEWC)と組み合わせると、性能が一貫して向上し、より小さなネットワークでも大きな未正則化モデルに匹敵または上回る。
- アブレーションにより、局所性と重要性割引が性能の鍵であることが示され、SLNIDはより疎な活性化を生み出し、将来のタスクのために未使用のパラメータをより多く残す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。