QUICK REVIEW

[論文レビュー] Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting

Xilai Li, Yingbo Zhou|arXiv (Cornell University)|Mar 31, 2019

Domain Adaptation and Few-Shot Learning参考文献 30被引用数 80

ひとこと要約

この論文は、継続学習における壊滅的忘却に対処するため、ニューラル構造最適化とパラメータ学習を分離する learn-to-grow フレームワークを提案し、NASを用いて共有ベースネットワークの上にタスク特異的な構造を成長させる。

ABSTRACT

Addressing catastrophic forgetting is one of the key challenges in continual learning where machine learning systems are trained with sequential or streaming tasks. Despite recent remarkable progress in state-of-the-art deep learning, deep neural networks (DNNs) are still plagued with the catastrophic forgetting problem. This paper presents a conceptually simple yet general and effective framework for handling catastrophic forgetting in continual learning with DNNs. The proposed method consists of two components: a neural structure optimization component and a parameter learning and/or fine-tuning component. By separating the explicit neural structure learning and the parameter estimation, not only is the proposed method capable of evolving neural structures in an intuitively meaningful way, but also shows strong capabilities of alleviating catastrophic forgetting in experiments. Furthermore, the proposed method outperforms all other baselines on the permuted MNIST dataset, the split CIFAR100 dataset and the Visual Domain Decathlon dataset in continual learning setting.

研究の動機と目的

深層ネットワークにおける継続学習と壊滅的忘却の問題を動機づける。
コンポーネントを共有しつつ、明示的にタスク特異的な構造を学習するフレームワークを提案する。
性能向上とモデルサイズの管理のために、構造学習とパラメータ学習を切り離す。

提案手法

2つのコンポーネントからなるフレームワークを導入: NASによるニューラル構造最適化と、現在の構造の上でのパラメータ学習/微調整。
共有可能な層とタスク特異的追加を管理するスーパーネットワーク S を使用し、再利用・適応・新規コンポーネントの作成のオプションを提供する。
モデルサイズを制約するために、タスク損失と構造正則化およびパラメータ正則化を組み合わせた罰付き損失を定式化する（Eq. 4）。
離散的なアーキテクチャ選択を微分可能な Softmax に緩和して、連続的な NAS を可能にする（DARTS風）。
交互更新を介して、検証セットでアーキテクチャ重み alpha を最適化し、訓練セットでネットワークパラメータを更新する。
再利用/適応/新規オペレーションを用いた構造最適化の実装方法と、各タスク後のスーパーモデルの更新方法を説明する。

実験結果

リサーチクエスチョン

RQ1明示的な継続的構造学習は、タスク間でコンポーネントを共有しつつ、妥当なタスク特異的アーキテクチャを生み出せるか？
RQ2構造学習をパラメータ学習から分離することは、ベースラインと比較して壊滅的忘却を減らすか？
RQ3タスクが類似している場合と異なる場合で、学習された構造はどのように適応するか？

主な発見

構造最適化は、類似タスクには層を共有し、タスクが非常に異なる場合には新しいパラメータを生成する傾向がある（例: ImageNet vs Omniglot）。
パーミュテッド MNIST では、学習された構造はベースラインより良いか同等で、レイヤを再利用した場合には強い忘却制御を示す。
Visual Domain Decathlon では、手法がタスク間で最も高い平均性能を達成し、アダプターと比較して総パラメータ数も同等に維持する。
正則化や小さな学習率で再利用した層をファインチューニングすると、忘却を大幅に緩和し、前のタスクの性能を保持する。
報告された実験で、パーミュテッド MNIST と split CIFAR-100 において、いくつかの最先端継続学習法を上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。