[论文解读] Deep Triplet Ranking Networks for One-Shot Recognition
本文提出一种深度三元组排序网络,通过三元组排序损失学习通用图像嵌入,以实现零样本图像分类。通过数据增强引入零样本样本并优化三元组间的相对相似性,该模型在Omniglot和miniImageNet数据集上取得了最先进性能。
Despite the breakthroughs achieved by deep learning models in conventional supervised learning scenarios, their dependence on sufficient labeled training data in each class prevents effective applications of these deep models in situations where labeled training instances for a subset of novel classes are very sparse -- in the extreme case only one instance is available for each class. To tackle this natural and important challenge, one-shot learning, which aims to exploit a set of well labeled base classes to build classifiers for the new target classes that have only one observed instance per class, has recently received increasing attention from the research community. In this paper we propose a novel end-to-end deep triplet ranking network to perform one-shot learning. The proposed approach learns class universal image embeddings on the well labeled base classes under a triplet ranking loss, such that the instances from new classes can be categorized based on their similarity with the one-shot instances in the learned embedding space. Moreover, our approach can naturally incorporate the available one-shot instances from the new classes into the embedding learning process to improve the triplet ranking model. We conduct experiments on two popular datasets for one-shot learning. The results show the proposed approach achieves better performance than the state-of-the- art comparison methods.
研究动机与目标
- 解决仅在每个新类别中提供一个标注样本的零样本图像分类挑战。
- 通过三元组排序学习相对相似性,克服基于绝对相似性的方法的局限性。
- 通过合成数据增强将零样本实例整合到训练过程中,提升模型泛化能力。
- 构建一个端到端的深度学习框架,学习适用于少样本和零样本识别的类别无关嵌入。
提出的方法
- 使用三元组排序损失训练深度卷积神经网络,强制在嵌入空间中,锚点与正样本之间的距离小于其与负样本之间的距离。
- 采用类似Siamese的架构,共享权重进行特征提取,随后通过全连接层生成图像嵌入。
- 通过应用数据增强技术(如旋转、缩放)生成合成样本,将零样本实例整合到训练过程中。
- 使用增强后的零样本实例微调预训练的三元组网络,以提升嵌入质量和泛化能力。
- 利用中间卷积层特征进行分类,高层特征表现更优。
- 应用PCA可视化学习到的嵌入,并比较不同方法(Siamese、三元组、微调后的三元组)的聚类质量。
实验结果
研究问题
- RQ1与基于绝对相似性的方法相比,通过三元组排序进行相对相似性学习是否能提升零样本分类性能?
- RQ2将零样本实例整合到训练过程中,如何影响嵌入模型的泛化能力?
- RQ3深层卷积层的中间特征表示在多大程度上提升了零样本分类准确率?
- RQ4所提方法是否能在Omniglot和miniImageNet等标准零样本学习基准上达到最先进性能?
主要发现
- 经微调的所提深度三元组排序网络在Omniglot和miniImageNet两个数据集上均取得了最高的测试准确率,优于现有最先进方法。
- PCA可视化显示,微调后的三元组排序模型为全部5个类别生成了明显分离的聚类,而Siamese网络未能区分其中3个类别。
- 深层卷积层(如conv-4-3)的中间特征显著提升了准确率(达到85.8%),证实了分层抽象的优势。
- 在使用完整嵌入向量时,最终全连接层(fc-1)在Omniglot数据集上实现了97.0%的最佳分类准确率。
- 该模型学习相对相似性的能力提升了对相似类别间视觉差异的鲁棒性,可视化结果表明其能更好地区分视觉相似的字符。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。