[论文解读] A Universal Representation Transformer Layer for Few-Shot Image Classification
URT 元学习将一个通用的、多领域的主干表示转换为任务自适应表示,用于小样本分类,在 Meta-Dataset 上实现了最先进的性能,并具备高效推理。
Few-shot classification aims to recognize unseen classes when presented with only a small number of samples. We consider the problem of multi-domain few-shot image classification, where unseen classes and examples come from diverse data sources. This problem has seen growing interest and has inspired the development of benchmarks such as Meta-Dataset. A key challenge in this multi-domain setting is to effectively integrate the feature representations from the diverse set of training domains. Here, we propose a Universal Representation Transformer (URT) layer, that meta-learns to leverage universal features for few-shot classification by dynamically re-weighting and composing the most appropriate domain-specific representations. In experiments, we show that URT sets a new state-of-the-art result on Meta-Dataset. Specifically, it achieves top-performance on the highest number of data sources compared to competing methods. We analyze variants of URT and present a visualization of the attention score heatmaps that sheds light on how the model performs cross-domain generalization. Our code is available at https://github.com/liulu112601/URT.
研究动机与目标
- 激发并解决来自多数据源的未见类别的多领域小样本分类问题。
- 提出一种可学习的机制,通过对领域特定主干网络的注意力来自适应通用表示到具体任务。
- 证明对主干网络组合进行元学习相较于手工特征选择能提升跨域泛化。
- 展示在 Meta-Dataset 上的最新性能,并分析注意力模式以解释跨域加权。
提出的方法
- 介绍使用点积自注意力来对m个预训练领域主干进行加权与组合的通用表示变换层(URT)。
- 使用来自类别支持集的查询和来自主干后表示的键,对任务中的每个类别进行类别级注意力表示。
- 支持单头和多头的URT变体;多头输出连接成表示,并包含正则化项以使注意力头多样化。
- 端到端训练URT,使用原型网络损失,在适应后的表示空间中利用类别原型对查询进行分类。
- 在URT处理前对主干输出进行归一化以考虑向量范数的差异。
- 可选地将 FiLM 调制的主干网络(pf 主干)进行比较,展示URT在不同主干族上的优势。
实验结果
研究问题
- RQ1一个Transformer风格的URT层是否可以通过学习对通用表示进行加权和组合来提升跨域小样本分类?
- RQ2URT中的注意力头是否能对已见和未见域产生可解释的领域特定加权?
- RQ3在使用不同主干训练范式(如FiLM-modulated backbones)时,URT 的提升是否仍然存在?
主要发现
| ILSVRC | Omniglot | Aircraft | Birds | Textures | Draw | Fungi | Flower | Traffic Signs | MSCOCO | 平均排名 | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| MAML | 37.8 ± 1.0 | 83.9 ± 1.0 | 76.4 ± 0.7 | 62.4 ± 1.1 | 64.1 ± 0.8 | 59.7 ± 1.1 | 33.5 ± 1.1 | 79.9 ± 0.8 | 42.9 ± 1.3 | 29.4 ± 1.1 | 8.0 |
| ProtoNet | 44.5 ± 1.1 | 79.6 ± 1.1 | 71.1 ± 0.9 | 67.0 ± 1.0 | 65.2 ± 0.8 | 64.9 ± 0.9 | 40.3 ± 1.1 | 86.9 ± 0.7 | 46.5 ± 1.0 | 39.9 ± 1.1 | 7.3 |
| ProtoMAML | 46.5 ± 1.1 | 82.7 ± 1.0 | 75.2 ± 0.8 | 69.9 ± 1.0 | 68.3 ± 0.8 | 66.8 ± 0.9 | 42.0 ± 1.2 | 88.7 ± 0.7 | 52.4 ± 1.1 | 41.7 ± 1.1 | 5.4 |
| CNAPs | 52.3 ± 1.0 | 88.4 ± 0.7 | 80.5 ± 0.6 | 72.2 ± 0.9 | 58.3 ± 0.7 | 72.5 ± 0.8 | 47.4 ± 1.0 | 86.0 ± 0.5 | 60.2 ± 0.9 | 42.6 ± 1.1 | 5.1 |
| BOHB-E | 55.4 ± 1.1 | 77.5 ± 1.1 | 60.9 ± 0.9 | 73.6 ± 0.8 | 72.8 ± 0.7 | 61.2 ± 0.9 | 44.5 ± 1.1 | 90.6 ± 0.6 | 57.5 ± 1.0 | 51.9 ± 1.0 | 4.4 |
| TaskNorm | 50.6 ± 1.1 | 90.7 ± 0.6 | 83.8 ± 0.6 | 74.6 ± 0.8 | 62.1 ± 0.7 | 74.8 ± 0.7 | 48.7 ± 1.0 | 89.6 ± 0.6 | 67.0 ± 0.7 | 43.4 ± 1.0 | 3.8 |
| SUR | 56.3 ± 1.1 | 93.1 ± 0.5 | 85.4 ± 0.7 | 71.4 ± 1.0 | 71.5 ± 0.8 | 81.3 ± 0.6 | 63.1 ± 1.0 | 82.8 ± 0.7 | 70.4 ± 0.8 | 52.4 ± 1.1 | 2.5 |
| SimpleCNAPS | 58.6 ± 1.1 | 91.7 ± 0.6 | 82.4 ± 0.7 | 74.9 ± 0.8 | 67.8 ± 0.8 | 77.7 ± 0.7 | 46.9 ± 1.0 | 90.7 ± 0.5 | 73.5 ± 0.7 | 46.2 ± 1.1 | 2.4 |
| URT | 55.7 ± 1.0 | 94.4 ± 0.4 | 85.8 ± 0.6 | 76.3 ± 0.8 | 71.8 ± 0.7 | 82.5 ± 0.6 | 63.5 ± 1.0 | 88.2 ± 0.6 | 69.4 ± 0.8 | 52.2 ± 1.1 | 1.6 |
- URT在Meta-Dataset上确立了新的最先进水平,在与之竞争的方法中数据源数量最多时表现最佳。
- 相较于SUR,URT将推理时间减少超过10倍(在V100上每任务0.04s对0.43s)。
- 双头URT学习互补的注意力模式:一个头关注同域主干,另一个混合相关域;未见域则混合多种主干以增强鲁棒性。
- 与SUR相比,URT在若干数据集上取得提升,同时不牺牲其他数据集的性能;在表1中,URT在多个数据源上优于SUR。
- 使用FiLM调制的主干(URT-pf)在若干数据集上普遍优于SUR-pf,表明对不同主干族的鲁棒性。
- 消融研究显示键(keys)和来自支持集的查询的重要性,以及多头带来的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。