Skip to main content
QUICK REVIEW

[论文解读] TADAM: Task dependent adaptive metric for improved few-shot learning

Boris N. Oreshkin, Pau Rodríguez|arXiv (Cornell University)|May 23, 2018
Domain Adaptation and Few-Shot Learning参考文献 34被引用 199
一句话总结

TADAM 引入度量缩放和一个任务条件自适应度量空间,并辅以辅助共训,在 mini-Imagenet 的少样本分类任务中达到最先进的结果。

ABSTRACT

Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.

研究动机与目标

  • 研究 metric scaling 如何影响少样本学习中的优化与性能。
  • 开发一个任务条件特征提取器,以形成一个任务相关的度量空间。
  • 通过辅助共训实现端到端训练以提高泛化能力。
  • 在影像分类的具有挑战性的少样本数据集中展示改进。

提出的方法

  • 引入一个可学习的温度参数 alpha 来缩放基于 softmax 的分类中的距离度量。
  • 给出关于在 alpha 下梯度行为的理论,识别两种渐近情形(alpha -> 0 和 alpha -> ∞)及其对更新的影响。
  • 通过一个任务嵌入网络将特征提取器置于任务表示之上,以预测逐层的 gamma 和 beta(FILM/条件批量归一化风格)。
  • 将均值类原型作为任务表示以生成任务条件参数。
  • 应用辅助任务共训以稳定训练并改善泛化,同时对辅助任务概率进行退火。
  • 在 mini-Imagenet 上使用 ResNet-12 骨干网络和一个基于新的 FC100 的 Fewshot-CIFAR100 数据集进行评估。

实验结果

研究问题

  • RQ1度量缩放是否会在不同度量(如欧氏距离、余弦距离)下提升少样本分类的性能?
  • RQ2任务条件是否能改善少样本任务的学习度量空间,且在网络中的哪一部分最具收益?
  • RQ3辅助共训是否有助于有效训练任务条件模型?
  • RQ4缩放参数 alpha 对学习动态和最终准确率有何影响?

主要发现

模型1 次5 次10 次
Meta Nets43.460.6-
Matching Networks46.660.0-
MAML48.763.1-
Proto Nets49.468.274.3
Relation Net50.465.3-
SNAIL55.768.9-
Discriminative k-shot56.373.978.5
adaResNet56.971.9-
Ours58.576.780.8
  • 缩放后的相似度度量可以达到甚至超过未缩放的度量,在某些设置中相比基线可提升多达 14 个百分点。
  • 提出的任务条件度量空间在 mini-Imagenet 的 5 类 5-shot 上达到最先进结果(76.7% 准确率),并较此前最先进水平进一步提高了 4.8 个百分点。
  • 最优的 alpha 介于两个渐近情形之间,存在一个 alpha 值可在不同数据集上持续提升性能;alpha 可以在验证集上进行交叉验证。
  • 单独的任务条件(TEN 加上 FILM 风格的参数生成)不足以实现有效的 TEN 与特征提取器的联合学习,辅助共训对于实现这种联合学习至关重要。
  • 在 mini-Imagenet 上,该方法在缩放后的欧氏距离和 TEN 的条件下达到 1-shot 58.5%、5-shot 76.7%、10-shot 80.8%。
  • 该方法对基于 FC100 的 Fewshot-CIFAR100 也具有推广性,相对于相关原型方法显示出显著增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。