Skip to main content
QUICK REVIEW

[論文レビュー] A learning-based approach to text image retrieval: using CNN features and improved similarity metrics

Mao Tan, Siping Yuan|arXiv (Cornell University)|Mar 23, 2017
Image Retrieval and Classification Techniques被引用数 2
ひとこと要約

本論文は、事前学習済み畳み込みニューラルネットワークを用いて文書画像から複数の深層特徴を抽出・統合する、CNNベースでコンテンツ駆動型のテキスト画像検索手法を提案する。重み付き特徴統合と改善された類似度メトリクスを適用することで、英語と中国語が混在する多言語文書画像において、OCR依存型の手法よりも高い検索精度を達成する。

ABSTRACT

Rapid increase of digitized document give birth to high demand of document image retrieval. While conventional document image retrieval approaches depend on complex OCR-based text recognition and text similarity detection, this paper proposes a new content-based approach, in which more attention is paid to features extraction and fusion. In the proposed approach, multiple features of document images are extracted by different CNN models. After that, the extracted CNN features are reduced and fused into weighted average feature. Finally, the document images are ranked based on feature similarity to a provided query image. Experimental procedure is performed on a group of document images that transformed from academic papers, which contain both English and Chinese document, the results show that the proposed approach has good ability to retrieve document images with similar text content, and the fusion of CNN features can effectively improve the retrieval accuracy.

研究の動機と目的

  • 学術的およびテクスチュアルな文書の急速なデジタル化に伴い、効率的な文書画像検索のニーズが高まっていることに対応する。
  • 多言語または低品質な画像において、複雑な文字認識に依存しやすく誤りが生じやすいOCRベースの手法の限界を克服する。
  • テキスト変換に依存せず、深層特徴を活用するコンテンツベースの検索システムを構築する。
  • 学習された重みに基づく複数のCNN抽出特徴を統合することで、検索精度を向上させる。
  • 英語と中国語の両方を含む混合言語文書画像において、有効性を実証する。

提案手法

  • 異なる事前学習済みCNNモデルを用いて、文書画像から複数の深層特徴を抽出する。
  • 抽出されたCNN特徴の次元を削減することで、効率性の向上と冗長性の低減を図る。
  • 特徴の重要度に基づく重み付き平均を用いて、低次元化された特徴を1つの表現に統合する。
  • 改善された類似度メトリクスを用いて、統合されたクエリ画像特徴とデータベース画像特徴との類似度を計算する。
  • クエリ画像との類似度スコアに基づいて、文書画像をランク付けする。
  • 英語と中国語の両方を含む混合テキストを有する学術論文から変換された文書画像データセットを用いて、システムの訓練と評価を行う。

実験結果

リサーチクエスチョン

  • RQ1CNNベースの特徴抽出手法は、多言語文書のテキスト画像検索において、従来のOCRベースの手法を上回ることができるか?
  • RQ2複数のCNNモデルからの特徴を統合することで、検索精度にどのような影響を与えるか?
  • RQ3改善された類似度メトリクスの使用が、検索パフォーマンスに与える影響は何か?
  • RQ4重み付き特徴統合は、文書画像の表現をどの程度向上させることができるか?
  • RQ5本手法は、英語と中国語の両方を含む文書画像において、どの程度効果的か?

主な発見

  • 提案手法は、混合言語文書画像において、従来のOCRベースの手法よりも高い検索精度を達成する。
  • 重み付き平均を用いた特徴統合は、個々のCNN特徴を用いる場合と比較して、検索パフォーマンスを顕著に向上させる。
  • 深層CNN特徴の使用により、文字認識に依存する必要が減少し、OCRの誤りに対してより頑健なシステムとなる。
  • 複雑なレイアウトと多言語コンテンツを有する文書画像においても、強力なパフォーマンスを示す。
  • 改善された類似度メトリクスは、微細な視覚的および構造的差異を捉えることで、関連画像の順序付けをより良くする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。