Skip to main content
QUICK REVIEW

[论文解读] Less-forgetting Learning in Deep Neural Networks

Heechul Jung, Jeongwoo Ju|arXiv (Cornell University)|Jul 1, 2016
Domain Adaptation and Few-Shot Learning参考文献 14被引用 161
一句话总结

提出一种较少遗忘的学习方法,在目标域学习过程中保持源域信息且不访问源数据,从而提升泛化并解决小批量遗忘。

ABSTRACT

A catastrophic forgetting problem makes deep neural networks forget the previously learned information, when learning data collected in new environments, such as by different sensors or in different light conditions. This paper presents a new method for alleviating the catastrophic forgetting problem. Unlike previous research, our method does not use any information from the source domain. Surprisingly, our method is very effective to forget less of the information in the source domain, and we show the effectiveness of our method using several experiments. Furthermore, we observed that the forgetting problem occurs between mini-batches when performing general training processes using stochastic gradient descent methods, and this problem is one of the factors that degrades generalization performance of the network. We also try to solve this problem using the proposed method. Finally, we show our less-forgetting learning method is also helpful to improve the performance of deep neural networks in terms of recognition rates.

研究动机与目标

  • 在不使用源域数据的情况下,将深度神经网络适应到新域时解决灾难性遗忘。
  • 保留原始源特征空间,使目标域训练不会覆盖先前的知识。
  • 识别并减轻在基于SGD的学习过程中小批量之间发生的遗忘。
  • 证明所提出方法在识别性能和泛化方面的提升。

提出的方法

  • 将源网络权重重用为目标网络的初始权重。
  • 冻结 softmax(分类器)层以保持决策边界。
  • 在目标数据上使用联合损失 L_t = λ_c L_c + λ_e L_e 进行训练,其中 L_c 为交叉熵,L_e 为源层与目标层特征之间的欧氏距离。
  • 将 L_e 定义为 1/2 || f_{L-1}(x; θ^(s)) - f_{L-1}(x; θ^(t)) ||_2^2,以对齐中间特征。
  • 在目标数据的小批量上通过反向传播迭代更新 θ^(t),同时满足冻结的分类器层的约束。

实验结果

研究问题

  • RQ1在不访问源数据的情况下,是否仍然能够在目标域学习过程中保留源域信息?
  • RQ2对齐中间特征是否有助于在目标域微调下保持源特征空间?
  • RQ3在SGD过程中,小批量之间也会出现遗忘吗?是否可以缓解?
  • RQ4与常规迁移和其他遗忘感知方法相比,较少遗忘学习是否能提高泛化能力和识别率。

主要发现

  • 所提方法在重新训练后,使源特征空间在目标域数据中保持良好簇聚。
  • 在标准 SGD 中可观测到小批量之间的遗忘,但被较少遗忘目标所缓解。
  • 在若干领域转移场景中,选择适当的 λ_e,LF 在传统迁移、LWTA 和 Maxout 上表现更好。
  • 应用较少遗忘方法时泛化得到提升,特别是与批量归一化结合时。
  • 该方法在从零开始学习时也有益处,不仅在迁移学习中。
  • 算法比较显示更平滑的训练行为和减少的遗忘。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。