Skip to main content
QUICK REVIEW

[论文解读] TapNet: Neural Network Augmented with Task-Adaptive Projection for Few-Shot Learning

S.W. Yoon, Jun Seo|arXiv (Cornell University)|May 16, 2019
Domain Adaptation and Few-Shot Learning参考文献 22被引用 123
一句话总结

TapNet 学习一个嵌入网络和每类别参考向量,同时为每个episode 构建一个任务特定的投影空间,在 Omniglot、miniImageNet 和 tieredImageNet 上实现最先进的少样本分类。

ABSTRACT

Handling previously unseen tasks after given only a few training examples continues to be a tough challenge in machine learning. We propose TapNets, neural networks augmented with task-adaptive projection for improved few-shot learning. Here, employing a meta-learning strategy with episode-based training, a network and a set of per-class reference vectors are learned across widely varying tasks. At the same time, for every episode, features in the embedding space are linearly projected into a new space as a form of quick task-specific conditioning. The training loss is obtained based on a distance metric between the query and the reference vectors in the projection space. Excellent generalization results in this way. When tested on the Omniglot, miniImageNet and tieredImageNet datasets, we obtain state of the art classification accuracies under various few-shot scenarios.

研究动机与目标

  • 通过在有限标签数据下实现对未知任务的快速适应来激励并解决小样本学习。
  • 提出一个元学习框架,联合学习嵌入、每类别参考向量和任务特定的投影空间。
  • 通过对分类进行线性投影以在每个 episode 中使嵌入与类别参考向量对齐,从而提升泛化能力。
  • 在标准的小样本基准上展示出强大的经验性能,并分析所学习的参考向量和投影空间的行为。

提出的方法

  • 使用嵌入网络 f_theta 将输入映射到特征空间。
  • 维护一组每类别的参考向量 Phi,表示参考空间中的类别原型。
  • 计算一个任务相关的线性投影 M,将特征映射到该 episode 的一个新的分类空间。
  • 通过对误差向量进行线性空零化,将来自支持集的类别均值 c_k 与修改后的参考 tilde(phi)_k 对齐,以通过 SVD 获得 M。
  • 在投影空间中以欧氏距离对查询样本进行分类,距离到投影参考 M(f_theta(x_hat))。
  • 通过情节性训练在各个 episode 中更新 f_theta 和 Phi,以最小化基于投影空间距离的跨 episode 分类损失。

实验结果

研究问题

  • RQ1一个任务特定的投影空间是否能在小样本学习中提升泛化能力,超越静态嵌入空间?
  • RQ2跨任务学习得到的每类别参考向量,结合任务条件投影,是否能够为未见类别带来更好的对齐和判别?
  • RQ3投影空间的维度如何影响小样本性能?
  • RQ4在标准基准测试中,TapNet 与现有的基于度量和记忆增强的元学习方法相比如何?

主要发现

  • TapNet 在 20 类 Omniglot 上达到 98.07% 的 1-shot 和 99.49% 的 5-shot 准确率。
  • TapNet 在 5 类 miniImageNet 上达到 61.65% 的 1-shot 和 76.36% 的 5-shot 准确率。
  • TapNet 在 5 类 tieredImageNet 上达到 63.08% 的 1-shot 和 80.26% 的 5-shot 准确率。
  • 投影空间 M 是通过对嵌入-参考不对齐进行线性空零化在每个 episode 构建的,从而在不为 M 本身学习参数的情况下实现任务特定的条件化。
  • 在许多 episode 中进行更高类数的训练可以提升性能,并允许在小样本测试中处理变化的类别数量。
  • 可视化分析表明参考向量在投影空间中自然分离,并在投影后与匹配的参考向量对齐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。