Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

Shizhe Chen, Yida Zhao|arXiv (Cornell University)|2020. 03. 01.
Multimodal Machine Learning Applications참고 문헌 38인용 수 26
한 줄 요약

이 논문은 주어진 비디오-텍스트 매칭을 이벤트, 동작, 개체의 세 가지 의미 수준으로 분해함으로써 주의 기반 그래프 추론을 사용해 교차 수준 상호작용을 포착하는 계층적 그래프 추론(HGR) 모델을 제안한다. 이 모델은 MSR-VTT, TGIF, VATEX에서 최신 기준 성능을 달성하며, 특히 불완전하거나 의미적으로 미묘한 문장 쌍에서의 세분화된 검색 성능 향상이 두드러진다.

ABSTRACT

Cross-modal retrieval between videos and texts has attracted growing attentions due to the rapid emergence of videos on the web. The current dominant approach for this problem is to learn a joint embedding space to measure cross-modal similarities. However, simple joint embeddings are insufficient to represent complicated visual and textual details, such as scenes, objects, actions and their compositions. To improve fine-grained video-text retrieval, we propose a Hierarchical Graph Reasoning (HGR) model, which decomposes video-text matching into global-to-local levels. To be specific, the model disentangles texts into hierarchical semantic graph including three levels of events, actions, entities and relationships across levels. Attention-based graph reasoning is utilized to generate hierarchical textual embeddings, which can guide the learning of diverse and hierarchical video representations. The HGR model aggregates matchings from different video-text levels to capture both global and local details. Experimental results on three video-text datasets demonstrate the advantages of our model. Such hierarchical decomposition also enables better generalization across datasets and improves the ability to distinguish fine-grained semantic differences.

연구 동기 및 목표

  • 비디오-텍스트 검색에서 세분화된 시각적 및 텍스처적 세부 정보를 포착하는 데에 국한된 전역 임베딩 모델의 한계를 해결한다.
  • 모든 모odal에서 위상적 구조와 관계 추론을 통합함으로써 순차적 모델링의 단점을 보완한다.
  • 미세한 의미적 차이가 있는 약한 지도 학습 기반의 복잡한 비디오-텍스트 쌍에서의 검색 성능을 향상시킨다.
  • 분리된 계층적 표현을 학습함으로써 데이터셋 간 일반화 능력을 향상시킨다.
  • 역할 전환, 개체 교체, 불완전한 기술과 같은 세분화된 이진 선택 작업에서 뛰어난 성능을 입증한다.

제안 방법

  • 비디오와 텍스트를 전역 이벤트(전체 문장), 동작(동사), 개체(명사구)의 세 가지 계층적 의미 수준으로 분해한다.
  • 이벤트, 동작, 개체 구성 요소 간의 상호작용을 모델링하기 위해 텍스트 내에서 의미 역할 그래프를 주의 기반 그래프 추론을 사용해 구축한다.
  • 교차 모odal 주의 메커니즘을 통해 비디오 표현을 텍스트 수준과 정렬된 계층적 표현으로 학습한다.
  • 모든 세 수준(이벤트, 동작, 개체)의 매칭 점수를 통합하여 통합된 종합적인 교차 모달 유사도 점수를 산출한다.
  • 전역 및 국소 매칭 정밀도를 향상시키기 위해 계층적 감독을 통한 공동 임베딩 공간을 사용한다.
  • 대상은 텍스트-비디오 및 비디오-텍스트 검색 모두에 적용되며, 대비 손실을 사용한 엔드 투 엔드 학습이 수행된다.

실험 결과

연구 질문

  • RQ1비디오와 텍스트를 이벤트, 동작, 개체로 계층적으로 분해하면 세분화된 비디오-텍스트 검색 성능이 향상되는가?
  • RQ2의미 수준 간 주의 기반 그래프 추론이 교차 모달 정렬 및 추론 능력을 향상시키는가?
  • RQ3기존의 공동 임베딩 모델에 비해 데이터셋 간 일반화 능력이 뛰어나게 되는가?
  • RQ4역할 전환이나 개체 교체와 같은 미세한 의미적 차이를 얼마나 잘 구분하는가?
  • RQ5계층적 매칭을 융합하면 불완전하거나 부분적인 기술에 대해서도 성능 향상이 이루어지는가?

주요 결과

  • HGR 모델은 MSR-VTT에서 텍스트-비디오 검색 시 평균 역순위(MedR)가 24로 기록되었으며, 비디오-텍스트 검색 시 11을 기록하여 이전 방법들을 능가한다.
  • 세분화된 이진 선택 작업에서 HGR는 평균 정확도 78.61%를 달성하여 VSE++(77.37%)와 Dual Encoding(76.43%)에 비해 뚜렷한 우월성을 보였다. 이는 미세한 의미 변화를 탐지하는 데서의 능력을 입증한다.
  • 불완전한 이벤트 작업에서 가장 높은 성능 향상을 보였으며(정확도 82.04%), 더 포괄적인 기술을 선호하는 능력을 입증했다.
  • 계층적 수준의 융합이 최고의 성능을 보였으며(텍스트-비디오 검색에서 R@1 71.9%), 개별 수준을 초월하여 다수 수준 추론의 이점을 확인했다.
  • 정성적 결과에서는 HGR가 모든 동작과 개체를 포함한 비디오를 성공적으로 검색하고, 핵심 구성 요소가 누락된 비디오는 거부하는 것으로 나타났다.
  • Youtube2Text와 같이 새로운 데이터셋에 대해서도 잘 일반화됨을 보여, 계층적 표현 학습의 강건성과 이식 가능성의 잠재력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.