Skip to main content
QUICK REVIEW

[论文解读] Siamese Network of Deep Fisher-Vector Descriptors for Image Retrieval

Eng-Jon Ong, Syed Sameed Husain|arXiv (Cornell University)|Feb 1, 2017
Advanced Image and Video Retrieval Techniques参考文献 2被引用 35
一句话总结

本文提出一种孪生深度学习架构,通过联合优化卷积神经网络(CNN)滤波器与Fisher向量参数,以提升大规模图像检索性能。通过在孪生框架中融合深度CNN描述符与Fisher向量编码,该方法在Oxford和Paris基准数据集上实现了最先进性能,尤其在包含100万条干扰项的挑战性条件下表现优异。

ABSTRACT

This paper addresses the problem of large scale image retrieval, with the aim of accurately ranking the similarity of a large number of images to a given query image. To achieve this, we propose a novel Siamese network. This network consists of two computational strands, each comprising of a CNN component followed by a Fisher vector component. The CNN component produces dense, deep convolutional descriptors that are then aggregated by the Fisher Vector method. Crucially, we propose to simultaneously learn both the CNN filter weights and Fisher Vector model parameters. This allows us to account for the evolving distribution of deep descriptors over the course of the learning process. We show that the proposed approach gives significant improvements over the state-of-the-art methods on the Oxford and Paris image retrieval datasets. Additionally, we provide a baseline performance measure for both these datasets with the inclusion of 1 million distractors.

研究动机与目标

  • 通过学习鲁棒的图像表征来提升大规模图像检索的准确性。
  • 解决相对于查询图像对数千至数百万张图像进行排序的挑战。
  • 联合优化CNN滤波器权重与Fisher向量参数,以适应深度描述符分布的演变。
  • 通过结合深度卷积特征与Fisher向量编码,提升特征聚合效果。
  • 在标准基准上建立包含100万条干扰项的新基线。

提出的方法

  • 该方法采用具有两个相同分支的孪生网络,每个分支处理一个图像输入。
  • 每个分支首先应用CNN,从输入图像中提取密集的深层卷积描述符。
  • 随后利用Fisher向量方法对CNN输出进行聚合,生成固定长度的向量表征。
  • 关键在于,网络端到端地联合训练CNN滤波器与Fisher向量参数。
  • 孪生架构通过最小化相似图像对嵌入之间的距离,实现相似性度量的学习。
  • 模型使用对比损失函数进行训练,该函数鼓励正样本对之间的距离较小,而负样本对之间的距离较大。

实验结果

研究问题

  • RQ1CNN滤波器与Fisher向量参数的联合优化是否能提升图像检索性能?
  • RQ2所提出的结合Fisher向量聚合的孪生网络在大规模图像检索基准上与最先进方法相比表现如何?
  • RQ3在检索性能评估中引入100万条干扰项的影响是什么?所提方法如何应对此挑战?
  • RQ4与独立训练相比,CNN与Fisher向量组件的联合学习是否能更好地适应深度描述符的分布?
  • RQ5所提方法是否能在Oxford和Paris等标准图像检索数据集上实现良好泛化?

主要发现

  • 所提方法在Oxford和Paris图像检索基准上实现了最先进性能。
  • 该模型在包含100万条干扰项的测试中显著优于现有方法。
  • CNN与Fisher向量参数的联合学习产生了更鲁棒且更具判别性的图像表征。
  • 与独立的CNN或Fisher向量方法相比,采用Fisher向量聚合的孪生架构显著提升了排序准确性。
  • 该方法在Oxford和Paris数据集上建立了大规模真实场景下的新基线。
  • 评估中引入100万条干扰项,充分展示了模型的鲁棒性与可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。