Skip to main content
QUICK REVIEW

[论文解读] Learning to Continually Learn

Shawn Beaulieu, L. Frati|arXiv (Cornell University)|Feb 21, 2020
Domain Adaptation and Few-Shot Learning参考文献 42被引用 70
一句话总结

该论文元学习一种神经调制架构(ANML),实现持续学习而不灾难性遗忘,可扩展至600个连续类别。它优于先前方法如 OML 以及 scratch/pretraining 基线。

ABSTRACT

Continual lifelong learning requires an agent or model to learn many sequentially ordered tasks, building on previous knowledge without catastrophically forgetting it. Much work has gone towards preventing the default tendency of machine learning models to catastrophically forget, yet virtually all such work involves manually-designed solutions to the problem. We instead advocate meta-learning a solution to catastrophic forgetting, allowing AI to learn to continually learn. Inspired by neuromodulatory processes in the brain, we propose A Neuromodulated Meta-Learning Algorithm (ANML). It differentiates through a sequential learning process to meta-learn an activation-gating function that enables context-dependent selective activation within a deep neural network. Specifically, a neuromodulatory (NM) neural network gates the forward pass of another (otherwise normal) neural network called the prediction learning network (PLN). The NM network also thus indirectly controls selective plasticity (i.e. the backward pass of) the PLN. ANML enables continual learning without catastrophic forgetting at scale: it produces state-of-the-art continual learning performance, sequentially learning as many as 600 classes (over 9,000 SGD updates).

研究动机与目标

  • 激励并形式化持续的终身学习,避免灾难性遗忘。
  • 提出一种元学习的神经调制架构,用以门控激活并控制选择性可塑性。
  • 证明在 Omniglot 上对数百个连续任务的可扩展性。
  • 将 ANML 与基线方法进行比较,包括 OML、预训练和从头训练。

提出的方法

  • 引入一个神经调制(NM)网络,通过上下文相关的激活门控预测网络(PLN)的前向传递。
  • 在外循环中对 NM 和 PLN 初始化进行元学习;在内循环中更新仅修改某些 PLN 权重,受 NM 门控的影响。
  • 使用 Online Aware Meta-Learning (OML) 目标,在内循环 SGD 步骤中奖励学习新类别而不忘记先前类别。
  • 在 Omniglot 上评估元训练和元测试,采样 remember 集以近似交错训练并防止遗忘。
  • 将 ANML 与基线方法比较,包括 OML、从头训练、预训练和迁移,以及 OML 变体。

实验结果

研究问题

  • RQ1通过元学习学习的神经调制门控机制是否能够在序列任务学习中减少灾难性遗忘?
  • RQ2上下文相关的门控是否能够实现选择性激活和选择性可塑性,从而将持续学习扩展到数百个类别?
  • RQ3在 Omniglot 上,ANML 在元测试训练和元测试测试性能方面与现有的元学习和持续学习基线相比如何?

主要发现

  • ANML 在所有测试的轨迹长度上都显著优于 OML 和其他基线的元测试训练准确率。
  • ANML 在600个元测试类别上的元测试测试准确率为63.8%,而 OML 为18.2%,OML-OLFT 为44.2%。
  • Scratch 和 Pretraining 基线在各轨迹长度上表现明显更差,在较长序列上常接近0%。
  • ANML 在多达600个连续 Omniglot 类别上展示学习而不遗忘,在某些 setting 下超过了 oracle i.i.d. 处理。
  • 门控将激活减少到稀疏、与任务相关的表示,同时保持较广的平均活动。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。