Skip to main content
QUICK REVIEW

[论文解读] Meta-Transfer Learning for Few-Shot Learning

Qianru Sun, Yaoyao Liu|arXiv (Cornell University)|Dec 6, 2018
Domain Adaptation and Few-Shot Learning参考文献 58被引用 32
一句话总结

本文提出元迁移学习(MTL),一种新颖的少样本学习方法,通过可学习的缩放与偏移操作对预训练深度神经网络(DNN)进行微调,实现快速收敛并减少过拟合。MTL采用硬任务(HT)元批次课程进行训练,在仅使用8,000个元训练任务的情况下(较MAML减少30倍),在miniImageNet和少样本CIFAR-100上达到最先进性能,且在1-shot学习中相较先前方法最高提升7%。

ABSTRACT

Meta-learning has been proposed as a framework to address the challenging few-shot learning setting. The key idea is to leverage a large number of similar few-shot tasks in order to learn how to adapt a base-learner to a new task for which only a few labeled samples are available. As deep neural networks (DNNs) tend to overfit using a few samples only, meta-learning typically uses shallow neural networks (SNNs), thus limiting its effectiveness. In this paper we propose a novel few-shot learning method called meta-transfer learning (MTL) which learns to adapt a deep NN for few shot learning tasks. Specifically, "meta" refers to training multiple tasks, and "transfer" is achieved by learning scaling and shifting functions of DNN weights for each task. In addition, we introduce the hard task (HT) meta-batch scheme as an effective learning curriculum for MTL. We conduct experiments using (5-class, 1-shot) and (5-class, 5-shot) recognition tasks on two challenging few-shot learning benchmarks: miniImageNet and Fewshot-CIFAR100. Extensive comparisons to related works validate that our meta-transfer learning approach trained with the proposed HT meta-batch scheme achieves top performance. An ablation study also shows that both components contribute to fast convergence and high accuracy.

研究动机与目标

  • 解决在有限标注数据下使用深度神经网络进行少样本学习时面临的过拟合与收敛缓慢问题。
  • 克服现有元学习方法依赖浅层网络且需大量元任务进行训练的局限性。
  • 实现在不发生灾难性遗忘的前提下,从大规模预训练模型有效迁移知识至少样本任务。
  • 开发一种更高效的元学习训练课程,以加速收敛并提升性能。

提出的方法

  • MTL通过学习任务特定的缩放(α)与偏移(β)参数,对最终特征层激活值进行 αX + β 操作,实现从大规模预训练DNN(如ResNet-12)的知识迁移。
  • 该方法将α与β视为元学习的超参数,通过元优化进行训练,以实现仅需少量梯度更新即可快速适应新少样本任务。
  • 提出一种新颖的硬任务(HT)元批次策略,根据历史验证性能动态重采样元批次中最具挑战性的任务,构建渐进式学习课程。
  • 该方法避免微调整个DNN,仅更新轻量级的缩放与偏移参数,从而减少过拟合并防止灾难性遗忘。
  • 该方法具有模型无关性,可应用于任意预训练DNN,实验表明其与ResNet-12等深层架构结合时展现出优异的泛化能力。
  • 训练过程采用元优化循环,元学习器学习初始化缩放与偏移参数,使得在少量梯度步长内即可实现对新任务的快速适应。

实验结果

研究问题

  • RQ1在仅含极少标注样本的情况下,预训练深度神经网络能否被有效微调用于少样本学习,且不过拟合?
  • RQ2基于课程的元批次策略若优先处理困难任务,是否能提升少样本元学习中的收敛速度与最终准确率?
  • RQ3对DNN激活值进行缩放与偏移操作,能否作为少样本适应中有效且参数高效的迁移机制?
  • RQ4在极端的1-shot与5-shot设置下,MTL相较于SOTA方法(如MAML与TADAM)的性能表现如何?
  • RQ5所提出的HT元批次策略在不同基准上在多大程度上加速了学习并提升了鲁棒性?

主要发现

  • MTL结合HT元批次策略在miniImageNet与Few-shot CIFAR-100上均达到最先进性能,在1-shot学习中相较MAML最高提升7%。
  • 在miniImageNet上,MTL仅使用8,000个元任务(较MAML的240,000个任务减少30倍)即实现1-shot学习71.2%的准确率,同时保持更高性能。
  • 消融实验表明,MTL机制与HT元批次策略均显著促进更快收敛与更高准确率,MTL相较无元学习基线在1-shot设置下最高提升10.2%。
  • 当应用于MAML并结合ResNet-12时,HT元批次策略使性能平均提升1%;而采用完整MTL时,miniImageNet与FC100的性能分别提升10%与9%。
  • HT元批次使MTL能早期达到顶尖性能——在FC100上1-shot约2,000次迭代内、5-shot约1,000次迭代内即达最优,证明其收敛更快。
  • 冻结预训练DNN仅元学习缩放与偏移参数(SS)的策略,相较微调全部参数(FT)表现更优,尤其在低数据场景下,因过拟合更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。