Skip to main content
QUICK REVIEW

[论文解读] Continual Learning Through Synaptic Intelligence

Friedemann Zenke, Ben Poole|arXiv (Cornell University)|Mar 13, 2017
Domain Adaptation and Few-Shot Learning参考文献 21被引用 68
一句话总结

本文提出智能突触,在训练过程中对每个突触的重要性进行累积,并应用在线的二次整合惩罚以保护重要的权重,从而在持续学习中减少遗忘并保持效率。

ABSTRACT

While deep learning has led to remarkable advances across diverse applications, it struggles in domains where the data distribution changes over the course of learning. In stark contrast, biological neural networks continually adapt to changing domains, possibly by leveraging complex molecular machinery to solve many tasks simultaneously. In this study, we introduce intelligent synapses that bring some of this biological complexity into artificial neural networks. Each synapse accumulates task relevant information over time, and exploits this information to rapidly store new memories without forgetting old ones. We evaluate our approach on continual learning of classification tasks, and show that it dramatically reduces forgetting while maintaining computational efficiency.

研究动机与目标

  • 在从非平稳数据流学习时,激励并解决神经网络的灾难性遗忘。
  • 提出一种突触级机制,在线估计每个参数对过去任务的重要性。
  • 开发一种局部的在线整合惩罚,使重要的突触得到保护,而不重要的突触可以适应新任务。
  • 表明在线的突触智能在多任务学习中稳定学习,具有有竞争力的性能和可扩展性。

提出的方法

  • 定义在任务 μ 期间对每个突触的重要性度量 ωμk,为梯度×参数更新的累积和。
  • 构造一个二次代理损失 ˜Lμ,通过对重要突触的变化进行惩罚来保持过去任务的最小值与轨迹,其中 Ωμk = sumν<μωνk(∆νk)2 + ξ。
  • 使用强度参数 c 将当前任务损失 Lμ 与整合项混合在一起,式为 ˜Lμ = Lμ + c Σk Ωμk(˜θk − θk)^2。
  • 在训练过程中在线更新 ωk,并在每个任务结束时累积 Ωμk,随后重置 ωk 以实现跨任务的持续学习。
  • 将其与基于 Hessian 的度量联系起来,表明在某些情况下,整合的重要性与 Hessian 结构对齐,特别是在低秩或对角情形中。

实验结果

研究问题

  • RQ1如何利用突触级动态来防止持续学习中的灾难性遗忘?
  • RQ2在线的、逐突触的重要性估计结合局部整合惩罚,是否能够在学习新任务的同时保持对旧任务的性能?
  • RQ3所提出的 Synaptic Intelligence 框架在有效性和在线计算方面与现有方法(如 Elastic Weight Consolidation,EWC)相比如何?
  • RQ4在线重要性度量与损失函数表面的曲率(Hessian)之间存在哪些理论关系?
  • RQ5该方法是否可扩展到比简单 MNIST 划分更大的数据集和更复杂的架构?

主要发现

  • 带有逐突触重要性的整合在分割的和置换的 MNIST 上显著降低遗忘,同时保持学习效率。
  • 在 split MNIST 上,带有整合的网络在跨任务的平均准确率保持较高,而没有整合则出现显著遗忘。
  • 在 permuted MNIST 上,整合的性能接近联合训练,并且优于 EWC。
  • 在 CIFAR-10/100 的划分中,整合带来更好的泛化并在多任务中保护较老的记忆,相比于无整合。
  • 相关性分析显示整合减少了重要权重的跨任务耦合,尤其在较深的层中,减轻干扰。
  • 在线的逐突触方法为离线 Fisher 基于的度量提供了可扩展的替代方案,并与低秩 Hessian 的记忆整合直觉相一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。