Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning Techniques for Future Intelligent Cross-Media Retrieval

Sadaqat Ur Rehman, Muhammad Waqas|arXiv (Cornell University)|2020. 07. 21.
Advanced Image and Video Retrieval Techniques참고 문헌 182인용 수 190
한 줄 요약

이 논문은 교차 매체 검색을 위한 딥러닝 방법에 대한 포괄적 조사로, 표현, 정렬, 번역에 기반한 분류를 제시하고 데이터셋과 도전과제를 검토한다.

ABSTRACT

With the advancement in technology and the expansion of broadcasting, cross-media retrieval has gained much attention. It plays a significant role in big data applications and consists in searching and finding data from different types of media. In this paper, we provide a novel taxonomy according to the challenges faced by multi-modal deep learning approaches in solving cross-media retrieval, namely: representation, alignment, and translation. These challenges are evaluated on deep learning (DL) based methods, which are categorized into four main groups: 1) unsupervised methods, 2) supervised methods, 3) pairwise based methods, and 4) rank based methods. Then, we present some well-known cross-media datasets used for retrieval, considering the importance of these datasets in the context in of deep learning based cross-media retrieval approaches. Moreover, we also present an extensive review of the state-of-the-art problems and its corresponding solutions for encouraging deep learning in cross-media retrieval. The fundamental objective of this work is to exploit Deep Neural Networks (DNNs) for bridging the "media gap", and provide researchers and developers with a better understanding of the underlying problems and the potential solutions of deep learning assisted cross-media retrieval. To the best of our knowledge, this is the first comprehensive survey to address cross-media retrieval under deep learning methods.

연구 동기 및 목표

  • 표현, 정렬, 번역에 초점을 맞춘 교차 매체 검색의 도전 과제 분류 체계 제안.
  • 비지도, 지도, 쌍대(pairwise), 순위 기반(paradigms) 등 교차 매체 검색에 대한 딥러닝 방법을 검토.
  • 잘 알려진 교차 매체 데이터셋과 DL 기반 검색 방법에 대한 적합성 검토.
  • 교차 매체 DL 기반 검색의 현재 문제점, 간극, 향후 연구 기회 식별.

제안 방법

  • 교차 매체 검색 도전 과제의 분류 체계 정의: 표현, 정렬, 번역.
  • DL 기반 교차 매체 검색 방법을 네 그룹으로 분류: 비지도, 지도, 쌍대, 순위 기반.
  • 교차 매체 데이터셋을 조사하고 특징과 DL 방법에 대한 관련성 요약.
  • 매체 간 차이 해소를 위한 최첨단 문제점 및 제안된 DL 기반 해결책 논의.
  • 교차 매체 검색의 가능 요인으로 엔드투엔드 DL 프레임워크와 다중 모달 표현의 필요성 제시.

실험 결과

연구 질문

  • RQ1딥러닝을 사용할 때 교차 매체 검색의 주요 도전 과제(표현, 정렬, 번역)는 무엇인가?
  • RQ2DL 기반 방법들(비지도, 지도, 쌍대, 순위 기반)이 이러한 도전에 어떻게 대응하는가?
  • RQ3어떤 데이터셋이 DL 기반 교차 매체 검색 방법의 평가와 발전을 가장 잘 지원하는가?
  • RQ4DL 활용 교차 매체 검색의 주요 격차와 향후 방향은?

주요 결과

  • DL 기반 교차 매체 검색에서 표현, 정렬, 번역을 다루는 새로운 분류 체계 소개.
  • 비지도, 지도, 쌍대, 순위 기반 방법에 걸친 최신 DL 접근법 개관.
  • 널리 사용되는 교차 매체 데이터셋과 DL 평가에 대한 장단점에 대한 상세 검토.
  • 최첨단 문제와 기회 강조, 교차 매체 DL 검색의 향후 연구를 이끈다.
  • 엔드투엔드 DL 모델과 다중 모달 표현을 매체 간 격차 해소의 핵심으로 강조.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.