Skip to main content
QUICK REVIEW

[论文解读] Rethinking Generalization in Few-Shot Classification

M. Hiller, Rongkai Ma|arXiv (Cornell University)|Jun 15, 2022
Domain Adaptation and Few-Shot Learning被引用 29
一句话总结

本文提出 FewTURE,一种基于令牌重加权、基于相似度的少样本分类器,在推理时通过在线优化运行,并展示自监督预训练对少样本任务泛化的益处,同时对模型大小及组件进行了全面消融。

ABSTRACT

Single image-level annotations only correctly describe an often small subset of an image's content, particularly when complex real-world scenes are depicted. While this might be acceptable in many classification scenarios, it poses a significant challenge for applications where the set of classes differs significantly between training and test time. In this paper, we take a closer look at the implications in the context of $ extit{few-shot learning}$. Splitting the input samples into patches and encoding these via the help of Vision Transformers allows us to establish semantic correspondences between local regions across images and independent of their respective class. The most informative patch embeddings for the task at hand are then determined as a function of the support set via online optimization at inference time, additionally providing visual interpretability of `$ extit{what matters most}$' in the image. We build on recent advances in unsupervised training of networks via masked image modelling to overcome the lack of fine-grained labels and learn the more general statistical structure of the data while avoiding negative image-level annotation influence, $ extit{aka}$ supervision collapse. Experimental results show the competitiveness of our approach, achieving new state-of-the-art results on four popular few-shot classification benchmarks for $5$-shot and $1$-shot scenarios.

研究动机与目标

  • 通过在变换器内部利用令牌级信息,激发超越传统原型的少样本分类泛化提升。
  • 提出一种令牌重加权机制,通过在线优化在推理时自适应,以选择用于分类的有信息量的图像补丁。
  • 评估自监督预训练相对于有监督预训练在缓解监督崩溃与提升少样本性能方面的作用。
  • 考察模型大小如何影响少样本性能,并确定实现强劲结果的实用骨干网络选择和训练动态。

提出的方法

  • 介绍 FewTURE,一种基于补丁/令牌的分类器,使用在任务特定的相似度分数并通过跨令牌的 logsumexp 聚合。
  • 在推理阶段实现在线优化,以学习令牌重要性权重,从而实现对有信息区域的选择性关注。
  • 对嵌入相似度 logits 使用温度缩放,以在令牌之间稳定并自适应类别 logits。
  • 使用自监督遮罩图像建模对骨干网络进行预训练,并在固定评估协议下与有监督预训练进行比较。
  • 对内环令牌重加权步数、聚合方法和相似度度量进行消融,以证明设计选择。
  • 报告训练与推理细节,包括骨干变体(ViT-small, Swin-tiny)及所用硬件。

实验结果

研究问题

  • RQ1基于令牌重加权的推理过程是否相较于固定原型提升少样本泛化?
  • RQ2自监督预训练在少样本设置中的泛化相对于有监督预训练有何影响?
  • RQ3模型大小对少样本性能有何影响,在 FewTURE 下哪些骨干网络可带来最佳结果?
  • RQ4令牌聚合与相似度度量的选择如何影响 FewTURE 的分类准确性?
  • RQ5在线优化步数对准确性和推理时间有何影响?

主要发现

  • FewTURE 采用令牌重加权在 mini ImageNet、tiered ImageNet、CIFAR-FS 和 FC-100 数据集上实现具有竞争力或最先进的性能。
  • 自监督预训练为 FewTURE 提供显著优势,可能是因为避免了监督崩溃并促成更通用的表征。
  • 增加内环重加权步数在提升准确率的同时收益递减且推理时间增加,5–15 步提供良好的权衡。
  • 基于 logsumexp 的令牌对数 logits 聚合和温度缩放的余弦相似度在性能上优于均值聚合或其他度量。
  • 模型大小本身并不能可靠预测少样本性能;较小的 ViT-tiny/ViT-small 骨干可以非常有效,在某些案例中较大骨干提升有限。
  • 消融研究显示令牌重加权的重要性以及嵌入相似度中的温度缩放所提供的稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。