QUICK REVIEW

[论文解读] Combination of Multiple Global Descriptors for Image Retrieval

HeeJae Jun, Byungsoo Ko|arXiv (Cornell University)|Mar 26, 2019

Advanced Image and Video Retrieval Techniques参考文献 60被引用 43

一句话总结

本文提出 CGD，一种端到端框架，将多个全局描述符（SPoC、MAC、GeM）连接在一起以创建组合图像表示，在多个图像检索基准上实现最先进的结果，且不需要训练独立模型。

ABSTRACT

Recent studies in image retrieval task have shown that ensembling different models and combining multiple global descriptors lead to performance improvement. However, training different models for the ensemble is not only difficult but also inefficient with respect to time and memory. In this paper, we propose a novel framework that exploits multiple global descriptors to get an ensemble effect while it can be trained in an end-to-end manner. The proposed framework is flexible and expandable by the global descriptor, CNN backbone, loss, and dataset. Moreover, we investigate the effectiveness of combining multiple global descriptors with quantitative and qualitative analysis. Our extensive experiments show that the combined descriptor outperforms a single global descriptor, as it can utilize different types of feature properties. In the benchmark evaluation, the proposed framework achieves the state-of-the-art performance on the CARS196, CUB200-2011, In-shop Clothes, and Stanford Online Products on image retrieval tasks. Our model implementations and pretrained models are publicly available.

研究动机与目标

激发并实现图像检索中类似集成的增益，而无需训练多个独立模型。
在单一骨干网络中结合多样的全局描述符，以利用它们的互补特性。
提供一个端到端可训练的框架，适用于各种骨干、描述符、损失函数和数据集。
通过经验性评估展示相对于单一描述符基线的性能提升，并在关键基准上实现最先进的结果。

提出的方法

使用卷积神经网络骨干网（例如，在下采样减弱的 ResNet-50）来产生最后的特征图。
创建多个分支，将不同的全局池化描述符（SPoC、MAC、GeM）应用于最后的卷积特征图。
每个分支在全连接层和 l2 归一化后输出一个 k 维嵌入。
将分支嵌入拼接，形成最终的 CGD，该 CGD 进行 l2 归一化并使用排序损失训练。
辅助模块对第一个描述符应用分类损失以提升嵌入区分性，使用温度缩放和标签平滑。
端到端训练，损失为主模块的排序损失与辅助分类损失的组合。

实验结果

研究问题

RQ1是否可以在单一端到端可训练框架中组合多个全局描述符，以在不进行显式多样性控制的情况下实现类似集成的收益？
RQ2SPoC、MAC 和 GeM 是否提供互补特性，组合后能提升图像检索性能？
RQ3哪些配置（哪些描述符、以何种顺序以及如何组合）在标准数据集上能获得最佳性能？
RQ4CGD 框架是否足够灵活，能够与不同的 CNN 骨干和排名损失一起工作？

主要发现

CGD 框架在各数据集上（CUB200-2011、CARS196、SOP、In-shop Clothes）持续优于单一描述符基线。
拼接多个描述符可保留各自特性，且效果优于简单相加。
使用带温度缩放和标签平滑的辅助分类损失可改善收敛性与嵌入质量。
最佳配置通常组合表现最佳和次佳的单一描述符（如 MG/SG），在各数据集上取得显著增益。
端到端训练的 CGD 需要单一骨干网和有限的额外参数，相较于传统的多学习器集成具有效率优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。