Skip to main content
QUICK REVIEW

[论文解读] Classification is a Strong Baseline for Deep Metric Learning

Andrew Zhai, Haoyu Wu|arXiv (Cornell University)|Nov 30, 2018
Advanced Image and Video Retrieval Techniques参考文献 28被引用 37
一句话总结

本文证明,在大规模分类任务中使用归一化Softmax损失是深度度量学习在图像检索任务中的强大基线方法。通过使用高维嵌入和二值化,该方法在与64D浮点嵌入相同的内存占用下实现了最先进性能,在CARS-196、CUB-200-2011、Stanford Online Products和In-Shop数据集上均优于以往基于三元组和基于分类的方法。

ABSTRACT

Deep metric learning aims to learn a function mapping image pixels to embedding feature vectors that model the similarity between images. Two major applications of metric learning are content-based image retrieval and face verification. For the retrieval tasks, the majority of current state-of-the-art (SOTA) approaches are triplet-based non-parametric training. For the face verification tasks, however, recent SOTA approaches have adopted classification-based parametric training. In this paper, we look into the effectiveness of classification based approaches on image retrieval datasets. We evaluate on several standard retrieval datasets such as CAR-196, CUB-200-2011, Stanford Online Product, and In-Shop datasets for image retrieval and clustering, and establish that our classification-based approach is competitive across different feature dimensions and base feature networks. We further provide insights into the performance effects of subsampling classes for scalable classification-based training, and the effects of binarization, enabling efficient storage and computation for practical applications.

研究动机与目标

  • 评估基于分类的训练方法(此前在人脸识别中占主导地位)是否能有效泛化到开放集图像检索任务。
  • 通过子采样策略研究基于分类的度量学习在极端类别数量下的可扩展性。
  • 探索对高维嵌入进行二值化以实现高效存储和推理的性能权衡,同时不损失准确性。
  • 建立一个实用、可扩展且高性能的深度度量学习基线,优于现有基于三元组和基于分类的方法。

提出的方法

  • 使用大规模分类任务中的归一化Softmax损失训练深度度量模型,其中每个类别由一个可学习的代理嵌入表示。
  • 采用高维嵌入空间(最高达2048D)以提升特征判别力和在多样化数据集上的泛化能力。
  • 在训练过程中对类别进行子采样,以控制计算成本并提升大规模数据集下的可扩展性。
  • 通过将浮点嵌入在零处进行阈值化,对最终的浮点嵌入进行二值化,以实现高效存储和计算,同时保持检索性能。
  • 使用ResNet-50、GoogleNet和BNInception作为骨干网络,以评估在不同架构上的泛化能力。
  • 通过标签平滑和归一化优化训练过程,以稳定高维空间中的学习并提升泛化能力。

实验结果

研究问题

  • RQ1基于分类的训练方法是否能在通用图像检索基准上实现最先进性能,而不仅限于人脸识别?
  • RQ2在大规模设置下,类别子采样对基于分类的度量学习性能有何影响?
  • RQ3在匹配64D浮点嵌入内存占用的前提下,高维二值嵌入在多大程度上能保持检索准确性?
  • RQ4高维基于分类的方法是否在多个标准数据集上优于现有的基于三元组的最先进方法?

主要发现

  • 所提出的2048D嵌入的归一化Softmax损失在CARS-196上达到98.1%的Recall@K,在CUB-200-2011上达到91.8%,优于以往最先进方法(包括LMCL和A-BIER)。
  • 通过将2048D浮点嵌入在零处阈值化得到的2048位二值嵌入,在CARS-196上实现98.0%的Recall@K,在CUB-200-2011上实现91.0%,在匹配64D浮点嵌入内存占用的同时,性能更优。
  • 训练过程中对类别进行子采样可保持强性能,使在类别数量极多的数据集上实现可扩展训练成为可能。
  • 该方法在所有评估数据集和嵌入维度上均优于多种最先进方法,包括N-pair损失、Proxy-NCA和Margin loss。
  • 归一化Softmax基线结合高维嵌入在性能上持续优于基于三元组和其他基于分类的方法,确立其为一种强大且通用的基线。
  • 对高维嵌入应用二值化不会降低性能,从而实现高效部署且精度损失极小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。