Skip to main content
QUICK REVIEW

[論文レビュー] Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting

Xilai Li, Yingbo Zhou|arXiv (Cornell University)|Mar 30, 2019
Multimodal Machine Learning Applications被引用数 110
ひとこと要約

本論文は Learn-to-Grow を提案する。継続的学習フレームワークは構造学習とパラメータ学習を明示的に分離し、ニューラルアーキテクチャ検索を用いてタスク固有の構造を成長させつつ共通プリミティブを再利用して壊滅的忘却を緩和する。 permuted MNIST、split CIFAR-100、Visual Domain Decathlon での強力な性能向上を実証する。

ABSTRACT

Addressing catastrophic forgetting is one of the key challenges in continual learning where machine learning systems are trained with sequential or streaming tasks. Despite recent remarkable progress in state-of-the-art deep learning, deep neural networks (DNNs) are still plagued with the catastrophic forgetting problem. This paper presents a conceptually simple yet general and effective framework for handling catastrophic forgetting in continual learning with DNNs. The proposed method consists of two components: a neural structure optimization component and a parameter learning and/or fine-tuning component. By separating the explicit neural structure learning and the parameter estimation, not only is the proposed method capable of evolving neural structures in an intuitively meaningful way, but also shows strong capabilities of alleviating catastrophic forgetting in experiments. Furthermore, the proposed method outperforms all other baselines on the permuted MNIST dataset, the split CIFAR100 dataset and the Visual Domain Decathlon dataset in continual learning setting.

研究の動機と目的

  • 連続的タスク学習における壊滅的忘却を防ぐ手段として継続的学習の動機づけ。
  • 構造成長とパラメータ学習を分離する二要素フレームワークの提案。
  • 各タスクに対して再利用・適応・新規を決定するための微分可能NASベース手法の開発。
  • 多様な継続的学習ベンチマークでの性能向上と忘却の低減を示す。

提案手法

  • Learn-to-Grow フレームワークを導入し、モデル Tt = Tt-1 ∪ θt をタスク固有の構造 st(Θt) で拡張する。
  • 構造正則化 Rs(st) およびパラメータ正則化 Rp(Θt) を用いた罰付き損失を定式化し、成長を抑制する。
  • α の連続緩和を介して層ごとの再利用・適応・新規の選択を最適化する微分可能なニューラルアーキテクチャ探索(NAS)を用いる。
  • 検証セットを用いたアーキテクチャ選択の NAS を実施し、次に訓練セットでパラメータ学習を行う二段階最適化を採用; すべてのタスク固有構造を集約するスーパー・ネットワークを更新する。
  • 各層について三つの操作を実装する:再利用(前の重みを共有)、適応(小さなアダプタを追加)、新規(新しい層を生成)。
  • 現在のタスクのために選択した構造を再学習し、再利用部分の正則化下での微調整を任意で行い、安定性と可塑性のバランスを取る。

実験結果

リサーチクエスチョン

  • RQ1NAS による明示的な継続的構造学習で、逐次タスクに対して意味のあるタスク特化アーキテクチャを得られるか。
  • RQ2構造学習とパラメータ学習を分離することが、ベースラインの継続学習手法よりも壊滅的忘却を効果的に低減するか。
  • RQ3Learn-to-Grow フレームワークは標準的な継続学習ベンチマーク(パーミュテッド MNIST、Visual Domain Decathlon)で最先端手法と比較してどうか。
  • RQ4再利用/適応/新規といった異なるアーキテクチャ決定が、忘却とタスク間転移にどう影響するか。

主な発見

ModelImNetC100SVHNUCFOGltGTSRDPedFlwrAirc.DTDavg.#params
Individual69.8473.9695.2269.9486.0599.9799.8641.8650.4129.8871.7058.96M
Classifier69.8477.0793.1262.3779.9399.6898.9265.8836.4148.2073.146.68M
Adapter69.8479.8294.2170.7285.1099.8999.5860.2950.1150.6076.0212.50M
Ours (fix)69.8479.5995.2872.0386.6099.7299.5271.2753.0149.8977.6814.46M
  • 学習された構造は意味的に類似するタスクには層を再利用し、タスクが大きく異なる場合には新しいものを生成する傾向があり、タスク固有の合理的なアーキテクチャを生み出す。
  • 忘却は SGD ベースラインと比較して大幅に緩和され、パーミュテッド MNIST および Visual Domain Decathlon で競合他手法と同等かそれ以上の成績を示す。
  • このアプローチはタスク間で平均的な精度が高く、パラメータ効率も良好で、同程度のモデルサイズのベースラインを上回ることが多い。
  • パーミュテッド MNIST では、正則化次第で EWC、IMM、HAT、DEN などを含む複数のベースラインより高い平均精度を達成。
  • Visual Domain Decathlon では、Learn-to-Grow 法が複数タスクで最良の総合結果を競争力のあるパラメータ規模で達成。
  • explicit な構造学習は、逐次タスク間のパフォーマンスを維持・改善しつつ、過度な微調整を必要とせず済むことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。