Skip to main content
QUICK REVIEW

[논문 리뷰] A Comprehensive Survey on Cross-modal Retrieval

Kaiye Wang, Qiyue Yin|arXiv (Cornell University)|2016. 07. 21.
Advanced Image and Video Retrieval Techniques참고 문헌 4인용 수 224
한 줄 요약

이 설문조사는 다중모달 검색 방법을 실수값 표현과 이진 표현으로 분류하고, 비지도/쿼리 페어/랭크 기반/지도 학습 접근법을 검토하며, 데이터셋과 실험 결과를 요약하고, 남은 문제점과 향후 방향을 제시한다.

ABSTRACT

In recent years, cross-modal retrieval has drawn much attention due to the rapid growth of multimodal data. It takes one type of data as the query to retrieve relevant data of another type. For example, a user can use a text to retrieve relevant pictures or videos. Since the query and its retrieved results can be of different modalities, how to measure the content similarity between different modalities of data remains a challenge. Various methods have been proposed to deal with such a problem. In this paper, we first review a number of representative methods for cross-modal retrieval and classify them into two main groups: 1) real-valued representation learning, and 2) binary representation learning. Real-valued representation learning methods aim to learn real-valued common representations for different modalities of data. To speed up the cross-modal retrieval, a number of binary representation learning methods are proposed to map different modalities of data into a common Hamming space. Then, we introduce several multimodal datasets in the community, and show the experimental results on two commonly used multimodal datasets. The comparison reveals the characteristic of different kinds of cross-modal retrieval methods, which is expected to benefit both practical applications and future research. Finally, we discuss open problems and future research directions.

연구 동기 및 목표

  • 다중모달 검색 연구와 그 동기에 대한 구조화된 개요를 제공한다.
  • 기존 방법을 실수값 표현 학습과 이진 다중모달 해싱으로 분류한다.
  • 데이터셋, 실험 결과 및 실용적 시사점을 요약하여 향후 연구를 안내한다.
  • 다중모달 검색의 남은 도전과제와 향후 연구 방향에 대해 논의한다.

제안 방법

  • 다중모달 검색 방법을 비지도, 쌍 기반, 랭크 기반, 지도 학습의 네 가지 범주로 분류한다.
  • 실수값 표현 학습과 이진(해싱) 접근법을 구분한다.
  • 각 주요 범주 아래의 하위 범주를 조사한다(예: 부분공간 학습, 토픽 모델, 딥러닝, 거리 측정 학습).
  • 대표 알고리즘과 핵심 아이디어를 제시하되, 이들이 어떻게 모달리티 간 공통 표현을 학습하는지에 중점을 둔다.

실험 결과

연구 질문

  • RQ1다중모달 검색 방법의 주요 범주와 하위 범주는 무엇인가?
  • RQ2비지도, 쌍 기반, 랭크 기반, 지도 학습 접근법은 다중모달 표현 학습에서 어떻게 차이가 나는가?
  • RQ3다중모달 검색을 평가하는 데 일반적으로 사용되는 데이터셋은 무엇이며, 해당 데이터셋의 실험은 무엇을 보여주는가?
  • RQ4다중모달 검색 연구에서 남아 있는 열린 문제와 향후 방향은 무엇인가?

주요 결과

  • 본 논문은 실수값 표현 학습과 이진 다중모달 해싱을 구분하는 분류 체계를 제시한다.
  • 비지도, 쌍 기반, 랭크 기반, 지도 방법을 부분공간 학습, 토픽 모델, 딥러닝에 걸쳐 분석한다.
  • 대표 알고리즘을 요약하고 강점, 한계 및 적용 가능성에 대해 논의한다.
  • 다중모달 데이터셋을 소개하고, 방법의 특징을 보여주기 위해 두 개의 일반적으로 사용되는 데이터셋에서 실험 결과를 보고한다.
  • 다중모달 검색의 열린 문제와 향후 연구 기회에 대해 논의한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.