Skip to main content
QUICK REVIEW

[论文解读] CrossTransformers: spatially-aware few-shot transfer

Carl Doersch, Ankush Gupta|arXiv (Cornell University)|Jul 22, 2020
Domain Adaptation and Few-Shot Learning参考文献 100被引用 58
一句话总结

论文揭示神经表示中的监督崩溃,并通过自监督的 SimCLR 片段和具空间感知的 CrossTransformer 架构来提升少样本迁移,在 Meta-Dataset 上实现了最先进的结果。

ABSTRACT

Given new tasks with very little data$-$such as new classes in a classification problem or a domain shift in the input$-$performance of modern vision systems degrades remarkably quickly. In this work, we illustrate how the neural network representations which underpin modern vision systems are subject to supervision collapse, whereby they lose any information that is not necessary for performing the training task, including information that may be necessary for transfer to new tasks or domains. We then propose two methods to mitigate this problem. First, we employ self-supervised learning to encourage general-purpose features that transfer better. Second, we propose a novel Transformer based neural network architecture called CrossTransformers, which can take a small number of labeled images and an unlabeled query, find coarse spatial correspondence between the query and the labeled images, and then infer class membership by computing distances between spatially-corresponding features. The result is a classifier that is more robust to task and domain shift, which we demonstrate via state-of-the-art performance on Meta-Dataset, a recent dataset for evaluating transfer from ImageNet to many other vision datasets.

研究动机与目标

  • 通过有限带标签数据来提高视觉系统对任务与领域变化的鲁棒性。
  • 识别在特征中丢失迁移所需信息的监督崩溃。
  • 提出自监督学习以保留通用特征。
  • 引入 CrossTransformers,以进行局部、空间对齐的比较用于少样本分类。
  • 在 Meta-Dataset 上进行评估,以展示在不同数据集上的迁移增益。

提出的方法

  • 使用 SimCLR 风格的自监督,改写为 MD-episodes,以产生可迁移的嵌入。
  • 在保留空间结构的前提下,采用原型网络作为基础并移除最终的空间池化。
  • 引入 CrossTransformers,通过对查询与支持图像之间的注意力局部对应来计算查询对齐的原型。
  • 在查询特征与对齐的局部原型之间计算距离,以预测类别概率。
  • 在支持与查询之间共享值头,表现得像距离度量。
  • 可选地增加全局特征并在测试时使用逻辑回归,以提升某些数据集的性能。

实验结果

研究问题

  • RQ1自监督学习是否能够缓解监督崩溃并在少样本场景中改善迁移?
  • RQ2像 CrossTransformers 这样的具空间感知的架构是否能提升对未见类别和领域的泛化?
  • RQ3SimCLR 片段与架构选择如何影响 Meta-Dataset 的性能?
  • RQ4在 CrossTransformers 中加入额外增强或测试时分类器的影响如何?
  • RQ5局部基于部位的对齐在细粒度与跨域识别中的帮助程度如何?

主要发现

  • 自监督的 SimCLR 风格片段可提升少样本迁移,尤其对距离 ImageNet 较远的数据集。
  • CrossTransformers 在 Meta-Dataset 上提供强大性能并在平均排名上优于基线。
  • 将 CrossTransformers 与 SimCLR 片段与数据增强结合,在 Meta-Dataset 的大多数数据集上实现了最先进的结果。
  • 注意力可视化显示语义上有意义的局部性对齐,尽管并非一对一的对应。
  • 全局特征配合测试时逻辑回归可提升某些数据集(如 DTD)的性能,但也可能损害其他数据集,揭示全局与局部表征之间的权衡。
  • 增加网络容量与更高的输入分辨率在不同数据集上产生混合效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。