QUICK REVIEW

[论文解读] Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning

Faisal Alamri, Anjan Dutta|arXiv (Cornell University)|Jul 30, 2021

Domain Adaptation and Few-Shot Learning参考文献 35被引用 23

一句话总结

该论文提出ViT-ZSL，一种基于视觉Transformer的模型，利用多头自注意力机制在无需物体部件标注的情况下学习判别性视觉属性，通过有效定位相关图像区域以实现未见类别识别，在所有三个GZSL基准（AWA2、CUB、SUN）上取得了最先进（SOTA）的调和平均性能。

ABSTRACT

Zero-Shot Learning (ZSL) aims to recognise unseen object classes, which are not observed during the training phase. The existing body of works on ZSL mostly relies on pretrained visual features and lacks the explicit attribute localisation mechanism on images. In this work, we propose an attention-based model in the problem settings of ZSL to learn attributes useful for unseen class recognition. Our method uses an attention mechanism adapted from Vision Transformer to capture and learn discriminative attributes by splitting images into small patches. We conduct experiments on three popular ZSL benchmarks (i.e., AWA2, CUB and SUN) and set new state-of-the-art harmonic mean results {on all the three datasets}, which illustrate the effectiveness of our proposed method.

研究动机与目标

解决现有零样本学习（ZSL）方法在依赖预训练视觉特征时缺乏显式属性定位的问题。
通过引入更强的注意力机制，克服ZSL中弱局部视觉表征学习的局限性。
在无需部件级标注或目标检测的情况下，实现对未见物体类别的零样本识别。
探索视觉Transformer在ZSL中通过多头自注意力实现联合全局与局部特征学习的可行性和有效性。
通过注意力驱动的特征学习改进视觉-语义对齐，实现在标准GZSL基准上的最先进性能。

提出的方法

将输入图像划分为固定大小的图像块，作为视觉Transformer编码器的输入标记。
应用多头缩放点积自注意力机制，计算图像块之间的关系，使模型能够关注判别性的局部和全局特征。
使用可学习的类别标记，将图像块表示聚合为统一的图像级嵌入。
利用学习到的注意力权重将视觉特征投影到共享语义空间，使其与已见和未见类别的语义嵌入对齐。
使用对比损失端到端训练模型，以最大化视觉特征与其对应语义嵌入之间的相似性。
利用自注意力机制隐式定位相关属性，无需显式监督，从而提升对未见类别的泛化能力。

实验结果

研究问题

RQ1基于视觉Transformer的多头自注意力机制是否能在无需部件级标注的情况下，提升零样本学习中的视觉特征定位能力？
RQ2自注意力机制在捕捉未见类别识别所需的局部和全局判别性特征方面有多有效？
RQ3所提出的ViT-ZSL模型是否在广义零样本学习（GZSL）设置下优于现有最先进ZSL方法？
RQ4注意力机制在部分遮挡或物体外观不完整的情况下，能在多大程度上使模型聚焦于语义相关的图像区域？
RQ5该模型是否能在无需微调或额外监督的情况下，泛化到包含大量物体类别的数据集（如SUN）？

主要发现

ViT-ZSL在AWA2数据集上实现了90.02%的新SOTA调和平均值，优于所有先前方法，包括AREN（92.9%准确率，但未报告调和平均值）。
在CUB数据集上，ViT-ZSL在未见类别上达到最高准确率（83.4%），在已见类别上位列第二（92.1%），因此在所有报告模型中实现了最佳调和平均值。
在SUN数据集上，ViT-ZSL实现了最高的调和平均值47.9%，显著优于所有其他模型，表明其在大规模、细粒度数据集上具有强大的泛化能力。
定性注意力图显示，即使物体仅部分可见或被遮挡（如仅显示鸟类的头部或上半身），模型仍能有效聚焦于物体级属性。
模型学会了关注与语义属性相关的上下文区域（如森林、地面或栖息结构），从而改善了语义对齐。
尽管性能强劲，该模型仍表现出对已见类别的偏向，表明未来需在归纳训练或领域自适应方面开展工作，以进一步平衡已见与未见类别之间的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。