QUICK REVIEW

[论文解读] Image Retrieval based on Bag-of-Words model

Jialu Liu|arXiv (Cornell University)|Apr 18, 2013

Advanced Image and Video Retrieval Techniques参考文献 21被引用 46

一句话总结

本文综述了用于大规模图像检索的词袋模型（BoW），该模型通过将局部SIFT描述子量化为视觉词，实现可扩展的基于文本的索引与搜索。研究表明，通过利用向量空间模型以及词汇生成、倒排索引和查询扩展等技术，BoW在基于内容的图像检索、目标识别和图像分类任务中均表现出优异性能。

ABSTRACT

This article gives a survey for bag-of-words (BoW) or bag-of-features model in image retrieval system. In recent years, large-scale image retrieval shows significant potential in both industry applications and research problems. As local descriptors like SIFT demonstrate great discriminative power in solving vision problems like object recognition, image classification and annotation, more and more state-of-the-art large scale image retrieval systems are trying to rely on them. A common way to achieve this is first quantizing local descriptors into visual words, and then applying scalable textual indexing and retrieval schemes. We call this model as bag-of-words or bag-of-features model. The goal of this survey is to give an overview of this model and introduce different strategies when building the system based on this model.

研究动机与目标

为基于内容的图像检索（CBIR）中的词袋（BoW）模型提供全面概述。
分析基于BoW的系统的关键组件，包括关键点检测、局部描述子提取、词汇生成和索引策略。
研究空间编码、与全局特征融合以及查询扩展等增强方法，以克服BoW的局限性。
评估BoW在大规模检索任务中的有效性，涵盖目标识别、图像分类和图像标注。

提出的方法

使用向量量化将局部SIFT描述子量化为视觉词，以构建视觉词汇表。
将每幅图像表示为视觉词频率的稀疏直方图，模仿文本文档的表示方式。
应用倒排文件索引，以实现在视觉词空间中的高效、可扩展的最近邻搜索。
采用余弦相似度、L2距离和汉明距离等相似度度量方法进行检索排序。
通过基于RANSAC的重排序、捆绑特征或空间词袋模型整合空间信息，以提高准确性。
将BoW与全局特征（如颜色直方图）结合，并应用查询扩展技术（如传递闭包扩展和加法查询扩展）以提升检索质量。

实验结果

研究问题

RQ1如何有效地将SIFT等局部描述子转换为可扩展、可索引的表示形式，以支持大规模图像检索？
RQ2构建基于BoW的图像检索系统的关键组件和设计选择有哪些？它们如何影响系统性能？
RQ3如何将局部特征之间的空间关系整合到BoW模型中，以提升检索准确性？
RQ4将BoW与全局图像特征结合，并采用查询扩展策略，能在多大程度上提升检索性能？
RQ5BoW模型在捕捉语义内容方面存在哪些局限性？这些局限性如何被缓解？

主要发现

通过利用SIFT描述子和可扩展索引，BoW模型在基于内容的图像检索、目标识别、图像分类和图像标注任务中均表现出优异性能。
倒排文件索引实现了大规模图像集合中高效快速的搜索，使BoW适用于实际应用场景。
查询扩展技术（如传递闭包扩展TCE和加法查询扩展AQE）通过利用可靠结果优化初始查询，提升了检索准确性。
通过基于RANSAC的重排序或空间词袋模型整合空间信息，可提高检索准确性，但会带来更高的计算开销。
将BoW与全局特征（如颜色直方图）融合，可通过捕捉整体图像分布提升性能，弥补BoW对局部区域的关注。
汉明嵌入通过存储二进制签名提供了一种优化视觉词相似度的方法，但会引入计算和存储开销。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。