Skip to main content
QUICK REVIEW

[论文解读] Incremental Few-Shot Learning with Attention Attractor Networks

Mengye Ren, Renjie Liao|arXiv (Cornell University)|Oct 16, 2018
Domain Adaptation and Few-Shot Learning参考文献 42被引用 30
一句话总结

本文提出了一种注意力吸引器网络(Attention Attractor Network)用于增量少样本学习,其中模型在不重新训练原始数据的前提下,通过少量样本学习新类别,同时保持对基础类别的性能。通过使用循环反向传播优化一个关注基础类别特征的正则化项,该方法在 mini-ImageNet 和 tiered-ImageNet 上实现了最先进性能,有效缓解了灾难性遗忘问题。

ABSTRACT

Machine learning classifiers are often trained to recognize a set of pre-defined classes. However, in many applications, it is often desirable to have the flexibility of learning additional concepts, with limited data and without re-training on the full training set. This paper addresses this problem, incremental few-shot learning, where a regular classification network has already been trained to recognize a set of base classes, and several extra novel classes are being considered, each with only a few labeled examples. After learning the novel classes, the model is then evaluated on the overall classification performance on both base and novel classes. To this end, we propose a meta-learning model, the Attention Attractor Network, which regularizes the learning of novel classes. In each episode, we train a set of new weights to recognize novel classes until they converge, and we show that the technique of recurrent back-propagation can back-propagate through the optimization process and facilitate the learning of these parameters. We demonstrate that the learned attractor network can help recognize novel classes while remembering old classes without the need to review the original training set, outperforming various baselines.

研究动机与目标

  • 解决在仅用少量样本学习新类别的同时,保持对先前学习的基础类别性能的挑战。
  • 开发一种元学习框架,利用基础类别特征的记忆来正则化新类别的小样本训练过程。
  • 实现在无法访问原始训练数据或无需完整重训情况下的有效持续学习。
  • 在增量少样本学习场景中提升泛化能力并减少遗忘。

提出的方法

  • 提出一种注意力吸引器网络,在小样本训练过程中通过关注基础类别特征生成正则化项。
  • 使用时间上的循环反向传播(RBP)将梯度反向传播至整个小样本优化过程,实现端到端的元学习。
  • 采用可微分的迭代求解器,将小样本分类器训练至收敛,同时引入注意力吸引器的正则化。
  • 学习一种动态正则化器,将小样本分类器的快速权重拉向基础类别表征,从而减少遗忘。
  • 利用元学习器最小化跨任务的期望查询损失,其中吸引器网络预测正则化强度。
  • 在少样本学习设置中应用该方法,使用支持集和查询集,其中支持集仅包含新类别,而查询集同时包含基础类别和新类别。

实验结果

研究问题

  • RQ1基于对基础类别特征注意力的元学习正则化器是否能有效减少增量少样本学习中的灾难性遗忘?
  • RQ2通过小样本优化过程进行循环反向传播是否能提供优于截断BPTT或单步更新的正则化效果?
  • RQ3与使用固定权重衰减或静态吸引器的基线方法相比,所提方法在标准少样本基准上的性能如何?
  • RQ4注意力吸引器模型是否能在不同数量的基础类别下实现泛化,并在持续学习模拟中保持鲁棒性?

主要发现

  • 所提出的注意力吸引器网络在 mini-ImageNet 和 tiered-ImageNet 上均优于使用固定权重衰减和静态吸引器的基线方法,展现出更优的泛化能力和遗忘缓解效果。
  • 循环反向传播(RBP)能够有效实现吸引器正则化器的元学习,其性能优于截断BPTT,后者在测试时若将小样本训练运行至收敛则无法泛化。
  • 在 mini-ImageNet 上,该模型在 1-shot 和 5-shot 64+5-way 少样本学习任务中达到最先进性能,且持续优于先前方法。
  • 消融实验表明,与手动权重衰减相比,学习到的吸引器显著减少了基础类别上的性能下降,尤其在基础类别与新类别联合预测中表现更优。
  • 可视化结果证实,吸引器网络将小样本分类器原型拉向基础类别表征,提供一种动态记忆机制,从而稳定学习过程。
  • 将基础类别数量从 50 增加到 150 提升了整体准确率,这是由于主干网络表征更优;然而在 200 个类别时性能下降,原因在于任务复杂度增加。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。