Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning Techniques for Future Intelligent Cross-Media Retrieval

Sadaqat Ur Rehman, Muhammad Waqas|arXiv (Cornell University)|Jul 21, 2020
Advanced Image and Video Retrieval Techniques参考文献 182被引用数 190
ひとこと要約

この論文は、表現、整合、翻訳に基づく分類を提示し、データセットと課題をレビューした、クロスメディア検索の深層学習手法の包括的な調査を提供します。

ABSTRACT

With the advancement in technology and the expansion of broadcasting, cross-media retrieval has gained much attention. It plays a significant role in big data applications and consists in searching and finding data from different types of media. In this paper, we provide a novel taxonomy according to the challenges faced by multi-modal deep learning approaches in solving cross-media retrieval, namely: representation, alignment, and translation. These challenges are evaluated on deep learning (DL) based methods, which are categorized into four main groups: 1) unsupervised methods, 2) supervised methods, 3) pairwise based methods, and 4) rank based methods. Then, we present some well-known cross-media datasets used for retrieval, considering the importance of these datasets in the context in of deep learning based cross-media retrieval approaches. Moreover, we also present an extensive review of the state-of-the-art problems and its corresponding solutions for encouraging deep learning in cross-media retrieval. The fundamental objective of this work is to exploit Deep Neural Networks (DNNs) for bridging the "media gap", and provide researchers and developers with a better understanding of the underlying problems and the potential solutions of deep learning assisted cross-media retrieval. To the best of our knowledge, this is the first comprehensive survey to address cross-media retrieval under deep learning methods.

研究の動機と目的

  • 表現、整合、翻訳に焦点を当てたクロスメディア検索の課題分類法を提案する。
  • 無監督、監視付き、ペアワイズ、ランクベースのパラダムにわたるクロスメディア検索の深層学習手法を評価する。
  • よく知られたクロスメディアデータセットと、それらが深層学習ベースの検索手法に適しているかをレビューする。
  • クロスメディアの深層学習ベース検索における現在の課題、ギャップ、将来の研究機会を特定する。

提案手法

  • 表現、整合、翻訳というクロスメディア検索の課題分類を定義する。
  • 深層学習ベースのクロスメディア検索手法を、無監督、監督、ペアワイズ、ランクベースの4つのグループに分類する。
  • クロスメディアデータセットを調査し、それらの特性とDL手法への関連性を要約する。
  • メディア間のギャップを埋めるための最先端の問題と、提案された深層学習ベースの解決策を議論する。
  • クロスメディア検索の実現要因として、エンドツーエンドのDLフレームワークとマルチモーダル表現を支持する。

実験結果

リサーチクエスチョン

  • RQ1ディープラーニングを用いたクロスメディア検索における主要な課題(表現、整合、翻訳)は何か?
  • RQ2DLベースの手法(無監督、監督、ペアワイズ、ランクベース)は、これらの課題にどのように対処するか?
  • RQ3DLベースのクロスメディア検索手法の評価と進展を最も支援するデータセットはどれか?
  • RQ4DL対応のクロスメディア検索における主要なギャップと今後の方向性は何か?

主な発見

  • DLベースのクロスメディア検索における表現、整合、翻訳を扱う新しい分類法を導入する。
  • 無監督、監督、ペアワイズ、ランクベースの手法にわたる最新のDLアプローチの調査を提供する。
  • 広く用いられるクロスメディアデータセットと、それらのDL評価における長所と短所を詳述する。
  • 最先端の問題と機会を強調し、クロスメディアDL検索の将来研究を導く。
  • メディア間のギャップを埋める中核として、エンドツーエンドのDLモデルとマルチモーダル表現を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。