Skip to main content
QUICK REVIEW

[论文解读] A learning-based approach to text image retrieval: using CNN features and improved similarity metrics

Mao Tan, Siping Yuan|arXiv (Cornell University)|Mar 23, 2017
Image Retrieval and Classification Techniques被引用 2
一句话总结

本文提出一种基于CNN的、内容驱动的文本图像检索方法,通过使用预训练的卷积神经网络从文档图像中提取并融合多种深度特征。通过应用加权特征融合和改进的相似性度量方法,该方法在混合语言(英文和中文)文档图像上的检索准确率高于依赖OCR的方法。

ABSTRACT

Rapid increase of digitized document give birth to high demand of document image retrieval. While conventional document image retrieval approaches depend on complex OCR-based text recognition and text similarity detection, this paper proposes a new content-based approach, in which more attention is paid to features extraction and fusion. In the proposed approach, multiple features of document images are extracted by different CNN models. After that, the extracted CNN features are reduced and fused into weighted average feature. Finally, the document images are ranked based on feature similarity to a provided query image. Experimental procedure is performed on a group of document images that transformed from academic papers, which contain both English and Chinese document, the results show that the proposed approach has good ability to retrieve document images with similar text content, and the fusion of CNN features can effectively improve the retrieval accuracy.

研究动机与目标

  • 应对由于学术和文本文档快速数字化而带来的高效文档图像检索的日益增长需求。
  • 克服依赖OCR方法的局限性,这些方法依赖复杂的文本识别,在多语言或低质量图像中容易出错。
  • 开发一种基于内容的检索系统,利用深度特征而非文本转录。
  • 通过使用学习到的权重融合多个CNN提取的特征,提高检索准确率。
  • 在包含英文和中文文本的混合语言文档图像上展示方法的有效性。

提出的方法

  • 使用不同的预训练CNN模型从文档图像中提取多种深度特征。
  • 对提取的CNN特征应用降维处理,以提高效率并减少冗余。
  • 基于特征重要性,使用加权平均法将降维后的特征融合为单一表征。
  • 使用改进的相似性度量计算融合后的查询图像特征与数据库图像特征之间的相似性。
  • 根据与查询图像的相似性得分对文档图像进行排序。
  • 在从包含英文和中文文本的学术论文转换而来的文档图像数据集上训练并评估系统。

实验结果

研究问题

  • RQ1基于CNN的特征提取方法是否能在多语言文档的文本图像检索中优于传统的OCR方法?
  • RQ2融合多个CNN模型的特征对检索准确率有何影响?
  • RQ3使用改进的相似性度量对检索性能有何影响?
  • RQ4加权特征融合在多大程度上能增强文档图像的表征能力以用于检索?
  • RQ5所提出的方法在包含英文和中文文本的文档图像上效果如何?

主要发现

  • 所提方法在混合语言文档图像上的检索准确率高于传统的OCR方法。
  • 使用加权平均法进行特征融合,与单独使用CNN特征相比,显著提升了检索性能。
  • 使用深度CNN特征减少了对文本识别的依赖,使系统对OCR错误更具鲁棒性。
  • 该系统在具有复杂版式和多语言内容的文档图像上表现出色。
  • 改进的相似性度量通过捕捉细微的视觉和结构差异,有助于更优的相关图像排序。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。