[论文解读] Discriminative Learning of Latent Features for Zero-Shot Recognition
本文提出了一种端到端的深度学习框架——潜在判别特征(LDF),联合学习判别性视觉区域和潜在语义属性,以实现零样本识别。通过使用级联缩放网络聚焦于以物体为中心的区域,并采用类别排序损失来学习判别性潜在属性,该模型在未见类别上的泛化能力得到提升,在AwA和CUB数据集上达到了最先进性能。
Zero-shot learning (ZSL) aims to recognize unseen image categories by learning an embedding space between image and semantic representations. For years, among existing works, it has been the center task to learn the proper mapping matrices aligning the visual and semantic space, whilst the importance to learn discriminative representations for ZSL is ignored. In this work, we retrospect existing methods and demonstrate the necessity to learn discriminative representations for both visual and semantic instances of ZSL. We propose an end-to-end network that is capable of 1) automatically discovering discriminative regions by a zoom network; and 2) learning discriminative semantic representations in an augmented space introduced for both user-defined and latent attributes. Our proposed method is tested extensively on two challenging ZSL datasets, and the experiment results show that the proposed method significantly outperforms state-of-the-art methods.
研究动机与目标
- 解决现有零样本学习(ZSL)方法依赖非判别性视觉与语义表征的局限性。
- 克服对人工设计或预训练图像特征以及人工定义属性的依赖,这些特征可能在未见类别上缺乏判别性。
- 提出一个统一框架,联合优化视觉区域发现与语义属性学习,以提升ZSL的泛化能力。
- 学习在不同类别间具有判别性的潜在属性,即使用户定义的属性存在共享或不完整的情况。
- 证明端到端学习视觉与语义表征可提升未见类别上的兼容性与分类性能。
提出的方法
- 采用级联缩放网络,通过学习空间注意力图逐步聚焦于以物体为中心的区域,使模型能够从图像中最具判别性的部分提取特征。
- 引入潜在属性学习模块,将属性学习建模为类别排序问题,以在潜在属性空间中最大化类间距离并最小化类内距离。
- 构建一个增强的语义空间,结合用户定义属性(UA)与学习得到的潜在属性(LA),并通过对比损失优化LA特征,以增强其判别性。
- 使用联合损失函数端到端训练整个模型,平衡视觉-语义兼容性、区域发现与属性判别性。
- 采用基于原型的预测策略处理未见类别,其中潜在属性原型通过用户定义属性与潜在特征之间的关系进行估计。
- 以预训练VGG19主干网络的特征图作为输入,缩放网络在中间特征激活上运行,以定位判别性区域。
实验结果
研究问题
- RQ1与传统的两阶段方法相比,视觉与语义表征的端到端学习是否能提升零样本识别性能?
- RQ2学习超越用户定义属性的判别性潜在属性,是否能带来未见类别上更好的泛化能力?
- RQ3级联缩放网络是否能在无边界框标注的情况下有效识别并聚焦于以物体为中心的区域?
- RQ4在类间与类内距离方面,学习得到的潜在属性的判别性与人工标注属性相比如何?
- RQ5视觉区域发现与潜在属性学习的联合优化在多大程度上提升了视觉与语义空间之间的兼容性?
主要发现
- 所提出的LDF模型在AwA和CUB数据集上达到了最先进性能,显著优于现有SOTA方法在零样本识别中的表现。
- 可视化结果证实,潜在属性特征(LA)比用户定义属性(UA)更具判别性,因为LA原型在不同类别间表现出更小的余弦相似度。
- 该模型在无边界框标注的情况下成功识别出以物体为中心的区域,如在CUB数据集中准确识别出完整鸟类而非孤立部位。
- 对于鲸鱼等类别,模型将背景元素(如水、海洋)纳入判别区域,与描述环境的用户定义属性保持一致。
- 尽管LA空间更具判别性,但LA模型在AwA上的性能略低于基于UA的模型,原因在于基于UA关系的原型估计存在偏差。
- 消融实验表明,视觉区域与潜在属性的联合学习优于分别训练,证实了端到端优化的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。