[论文解读] Optimizing Top Precision Performance Measure of Content-Based Image Retrieval by Learning Similarity Function
本文提出了一种新颖的相似性学习方法——最大顶精度相似性(MTPS),以在基于内容的图像检索中直接优化顶精度度量。通过将问题建模为二次规划任务,使相关图像在首个不相关图像之前排名最大化,MTPS在Caltech256和Indoor等基准数据集上实现了优于SOTA方法(如OASIS和OMKS)的顶精度性能。
In this paper we study the problem of content-based image retrieval. In this problem, the most popular performance measure is the top precision measure, and the most important component of a retrieval system is the similarity function used to compare a query image against a database image. However, up to now, there is no existing similarity learning method proposed to optimize the top precision measure. To fill this gap, in this paper, we propose a novel similarity learning method to maximize the top precision measure. We model this problem as a minimization problem with an objective function as the combination of the losses of the relevant images ranked behind the top-ranked irrelevant image, and the squared Frobenius norm of the similarity function parameter. This minimization problem is solved as a quadratic programming problem. The experiments over two benchmark data sets show the advantages of the proposed method over other similarity learning methods when the top precision is used as the performance measure.
研究动机与目标
- 为解决现有相似性学习方法未针对顶精度度量进行优化的问题,而顶精度是基于内容的图像检索中的关键性能指标。
- 开发一种学习框架,通过建模相关图像相对于首个不相关图像的排名,直接最大化顶精度。
- 通过引入相似性函数参数矩阵的正则化平方Frobenius范数,防止过拟合。
- 通过将优化问题表述为二次规划,提供一种可扩展且高效的解决方案。
- 在顶精度度量下,证明所提方法优于现有相似性学习算法。
提出的方法
- 将相似性函数建模为线性函数:$ s(\mathbf{z}, \mathbf{x}) = \mathbf{z}^\top W \mathbf{x} $,其中 $ W $ 为可学习的参数矩阵。
- 将顶不相关图像 $ \mathbf{x}_{\phi_i} $ 定义为与查询 $ \mathbf{z}_i $ 相似度得分最高的不相关数据库图像。
- 施加一个边界约束:对所有相关样本对 $ (\mathbf{z}_i, \mathbf{x}_j) $,有 $ s(\mathbf{z}_i, \mathbf{x}_j) > \max_{k:y_{ik}=0} s(\mathbf{z}_i, \mathbf{x}_k) + 1 $,确保相关图像排在首个不相关图像之前。
- 构建基于合页损失的优化目标函数,对违反边界约束的情况施加惩罚,并结合正则项 $ \|W\|_F^2 $ 以防止过拟合。
- 将优化问题重新表述为涉及对偶变量 $ \beta_{ijk} $ 的对偶二次规划(QP)问题,对每个查询的 $ \beta_{ijk} $ 求和施加约束。
- 使用活动集算法求解对偶QP问题,并通过 $ W = \sum_{i,j,k} \beta_{ijk} \mathbf{z}_i \mathbf{z}_i^\top (\mathbf{x}_j - \mathbf{x}_k)(\mathbf{x}_{j'} - \mathbf{x}_{k'})^\top $ 从对偶变量中恢复最优 $ W $。
实验结果
研究问题
- RQ1能否设计一种相似性学习方法,直接优化基于内容的图像检索中的顶精度度量?
- RQ2在训练过程中,如何建模并强制实现相关图像相对于首个不相关图像的排名?
- RQ3何种优化框架能够有效学习相似性函数,同时防止过拟合?
- RQ4在顶精度度量下,所提方法与现有相似性学习算法相比,在性能和效率方面表现如何?
- RQ5所提方法能否在Caltech256和Indoor等多样化基准图像数据集上实现有效泛化?
主要发现
- 所提出的MTPS方法在Caltech256数据集上实现了超过0.18的顶精度,显著优于其他方法(其顶精度均低于0.16)。
- 在Indoor数据集上,MTPS在多个评估指标下均表现出一致且优越的性能,优于OASIS、OMKS、BD、SIKMA和VPDM。
- MTPS的运行时间快于大多数对比方法,仅略慢于OASIS和OMKS,表明其具有出色的计算效率。
- 对偶二次规划的表述有效优化了顶精度目标,具备良好的泛化能力。
- 引入平方Frobenius范数正则项能有效防止过拟合,同时保持高排名性能。
- 实证结果证实,直接优化顶精度可显著提升标准基准上的检索有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。