Skip to main content
QUICK REVIEW

[论文解读] Recent Advance in Content-based Image Retrieval: A Literature Survey

Wengang Zhou, Houqiang Li|arXiv (Cornell University)|Jun 19, 2017
Advanced Image and Video Retrieval Techniques参考文献 169被引用 160
一句话总结

本综述对2003年至2016年的CBIR技术进行分类与评估,详细描述图像表示、索引和排序模块,并勾勒未来研究方向。

ABSTRACT

The explosive increase and ubiquitous accessibility of visual data on the Web have led to the prosperity of research activity in image search or retrieval. With the ignorance of visual content as a ranking clue, methods with text search techniques for visual retrieval may suffer inconsistency between the text words and visual content. Content-based image retrieval (CBIR), which makes use of the representation of visual content to identify relevant images, has attracted sustained attention in recent two decades. Such a problem is challenging due to the intention gap and the semantic gap problems. Numerous techniques have been developed for content-based image retrieval in the last decade. The purpose of this paper is to categorize and evaluate those algorithms proposed during the period of 2003 to 2016. We conclude with several promising directions for future research.

研究动机与目标

  • 概述 CBIR 流程及其五个核心模块:查询形成、图像表示、数据库索引、图像评分与搜索再排序。
  • 评估每个模块的关键技术,包括特征提取、可视化码本、空间上下文和量化。
  • 比较手工特征与学习型特征及其对可扩展性和检索准确性的影响。
  • 讨论真实标签数据集、评估指标,以及实际工业CBIR系统,以识别优点与局限性。

提出的方法

  • 回顾五模块CBIR框架及离线/在线阶段。
  • 讨论特征提取选项:手工设计的局部/全局特征以及学习型特征(包括CNN、基于补丁的表示和基于区域的表示)。
  • 解释可视化码本学习,包括K-均值、分层K-均值、基于ANN的量化,以及替代的哈希/虚拟词汇。
  • 描述空间上下文嵌入,以及视觉短语和空间金字塔概念如何提升判别性。
  • 概述特征量化策略,包括硬量化与软量化,以及用于大规模数据库的可扩展搜索结构。

实验结果

研究问题

  • RQ1在CBIR中,哪些查询形成方案是有效的(例如通过示例查询、草图、颜色映射、基于文本的结构化查询)?
  • RQ2应如何表示和编码图像,以在大规模数据库中平衡准确性与可扩展性?
  • RQ3哪些索引和相似性度量技术最能支持大规模下的高效且准确的CBIR?
  • RQ4再排序与半结构化搜索如何改善最终检索结果并弥合语义差距?
  • RQ5哪些数据集和评估指标最能反映进展并指导未来的CBIR研究?

主要发现

  • 基于SIFT的局部特征与视觉词袋对可扩展的CBIR奠定了基础,促进了鲁棒匹配与索引。
  • 学习型特征,尤其是深度CNN,已成为检索的强大表示,方法从全局描述符到区域级和补丁级特征不等。
  • 空间上下文与视觉短语显著提升了相较于传统词袋表示的判别能力。
  • 高效索引与近似最近邻搜索(如KD树、词汇树、FLANN)对于可扩展的大规模CBIR系统至关重要,通常辅以哈希和二进制编码。
  • 显然正在向端到端或任务定制的深度模型转变(例如用于地标的CNN微调、区域级深度描述符、基于哈希的检索),以更好地弥合语义差距。
  • 商业CBIR系统(如TinEye、Ditto)展示了CBIR方法在实际部署中的可行性和规模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。