Skip to main content
QUICK REVIEW

[論文レビュー] Recent Advance in Content-based Image Retrieval: A Literature Survey

Wengang Zhou, Houqiang Li|arXiv (Cornell University)|Jun 19, 2017
Advanced Image and Video Retrieval Techniques参考文献 169被引用数 160
ひとこと要約

この調査は2003年から2016年までのCBIR技術を分類・評価し、画像表現・インデックス付け・ランク付けモジュールを詳述し、今後の研究方向を概説する。

ABSTRACT

The explosive increase and ubiquitous accessibility of visual data on the Web have led to the prosperity of research activity in image search or retrieval. With the ignorance of visual content as a ranking clue, methods with text search techniques for visual retrieval may suffer inconsistency between the text words and visual content. Content-based image retrieval (CBIR), which makes use of the representation of visual content to identify relevant images, has attracted sustained attention in recent two decades. Such a problem is challenging due to the intention gap and the semantic gap problems. Numerous techniques have been developed for content-based image retrieval in the last decade. The purpose of this paper is to categorize and evaluate those algorithms proposed during the period of 2003 to 2016. We conclude with several promising directions for future research.

研究の動機と目的

  • CBIRパイプラインと五つの主要モジュール:クエリ形成、画像表現、データベースインデックス、画像スコアリング、検索再ランク付け。
  • 各モジュールの主要技術を評価:特徴抽出、ビジュアルコードブック、空間的コンテキスト、量子化。
  • 手作り特徴と学習ベース特徴を比較し、スケーラビリティと検索精度への影響を評価。
  • グラウンドトゥルースデータセット、評価指標、および実用的な産業CBIRシステムを議論し、長所と限界を特定する。

提案手法

  • 五モジュールのCBIRフレームワークとオフライン/オンライン段階をレビュー。
  • 手作りの局所/グローバル特徴および学習ベース特徴(CNN、パッチベース、領域ベースの表現を含む)などの特徴抽出オプションを検討。
  • k-means、階層型k-means、ANNベース量子化、代替ハッシュ/仮想語彙を含むビジュアルコードブック学習を説明。
  • 空間的コンテキスト埋め込みと、視覚句(ビジュアルフレーズ)と空間ピラミッド概念が識別性を高める方法。
  • ハード量子化とソフト量子化、および大規模データベース向けのスケーラブル検索構造を含む特徴量量子化戦略を概説。

実験結果

リサーチクエスチョン

  • RQ1CBIRにおける効果的なクエリ形成方式(例:例示によるクエリ、スケッチ、カラー・マップ、テキストベースの構造化クエリ)は何か。
  • RQ2大規模データベースでの精度とスケーラビリティのバランスを取るために、画像はどのように表現・符号化すべきか。
  • RQ3効率的で正確なCBIRを大規模でサポートする最良のインデックス付けと類似度測定技術は何か。
  • RQ4リランキングと半構造化検索は最終的な検索結果をどう改善し、意味的ギャップにどう対処できるか?
  • RQ5どのデータセットと評価指標が進捗を反映し、今後のCBIR研究を導くのに最適か?

主な発見

  • SIFTベースの局所特徴とBag-of-Visual-Wordsは、スケーラブルなCBIRの基盤となり、頑健な照合とインデックス作成を可能にした。
  • 特に深層CNNなどの学習ベースの特徴は、グローバル記述子から領域ベース・パッチレベルの特徴まで、検索のための強力な表現として浮上してきた。
  • 空間的コンテキストと視覚的フレーズは、従来のBag-of-Words表現を超える識別能力を大きく向上させる。
  • 効率的なインデックス付けと近似最近傍探索(例:KD-tree、ボキャブツリー、FLANN)は、スケーラブルな大規模CBIRシステムに不可欠であり、ハッシュとバイナリコードで補完されることが多い。
  • 終始的端的にエンドツーエンドまたはタスク適合の深層モデル(例:ランドマークのCNNファインチューニング、領域ベースの深い記述子、ハッシュベースの検索)へ明確な移行があり、意味的ギャップをより良く橋渡しする。
  • 商用CBIRシステム(TinEye、Dittoなど)は、実世界の展開におけるCBIRアプローチの実用性と規模を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。