QUICK REVIEW

[논문 리뷰] Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

Shizhe Chen, Yida Zhao|arXiv (Cornell University)|2020. 03. 01.

Multimodal Machine Learning Applications참고 문헌 38인용 수 26

한 줄 요약

이 논문은 주어진 비디오-텍스트 매칭을 이벤트, 동작, 개체의 세 가지 의미 수준으로 분해함으로써 주의 기반 그래프 추론을 사용해 교차 수준 상호작용을 포착하는 계층적 그래프 추론(HGR) 모델을 제안한다. 이 모델은 MSR-VTT, TGIF, VATEX에서 최신 기준 성능을 달성하며, 특히 불완전하거나 의미적으로 미묘한 문장 쌍에서의 세분화된 검색 성능 향상이 두드러진다.

ABSTRACT

Cross-modal retrieval between videos and texts has attracted growing attentions due to the rapid emergence of videos on the web. The current dominant approach for this problem is to learn a joint embedding space to measure cross-modal similarities. However, simple joint embeddings are insufficient to represent complicated visual and textual details, such as scenes, objects, actions and their compositions. To improve fine-grained video-text retrieval, we propose a Hierarchical Graph Reasoning (HGR) model, which decomposes video-text matching into global-to-local levels. To be specific, the model disentangles texts into hierarchical semantic graph including three levels of events, actions, entities and relationships across levels. Attention-based graph reasoning is utilized to generate hierarchical textual embeddings, which can guide the learning of diverse and hierarchical video representations. The HGR model aggregates matchings from different video-text levels to capture both global and local details. Experimental results on three video-text datasets demonstrate the advantages of our model. Such hierarchical decomposition also enables better generalization across datasets and improves the ability to distinguish fine-grained semantic differences.

연구 동기 및 목표

비디오-텍스트 검색에서 세분화된 시각적 및 텍스처적 세부 정보를 포착하는 데에 국한된 전역 임베딩 모델의 한계를 해결한다.
모든 모odal에서 위상적 구조와 관계 추론을 통합함으로써 순차적 모델링의 단점을 보완한다.
미세한 의미적 차이가 있는 약한 지도 학습 기반의 복잡한 비디오-텍스트 쌍에서의 검색 성능을 향상시킨다.
분리된 계층적 표현을 학습함으로써 데이터셋 간 일반화 능력을 향상시킨다.
역할 전환, 개체 교체, 불완전한 기술과 같은 세분화된 이진 선택 작업에서 뛰어난 성능을 입증한다.

제안 방법

비디오와 텍스트를 전역 이벤트(전체 문장), 동작(동사), 개체(명사구)의 세 가지 계층적 의미 수준으로 분해한다.
이벤트, 동작, 개체 구성 요소 간의 상호작용을 모델링하기 위해 텍스트 내에서 의미 역할 그래프를 주의 기반 그래프 추론을 사용해 구축한다.
교차 모odal 주의 메커니즘을 통해 비디오 표현을 텍스트 수준과 정렬된 계층적 표현으로 학습한다.
모든 세 수준(이벤트, 동작, 개체)의 매칭 점수를 통합하여 통합된 종합적인 교차 모달 유사도 점수를 산출한다.
전역 및 국소 매칭 정밀도를 향상시키기 위해 계층적 감독을 통한 공동 임베딩 공간을 사용한다.
대상은 텍스트-비디오 및 비디오-텍스트 검색 모두에 적용되며, 대비 손실을 사용한 엔드 투 엔드 학습이 수행된다.

실험 결과

연구 질문

RQ1비디오와 텍스트를 이벤트, 동작, 개체로 계층적으로 분해하면 세분화된 비디오-텍스트 검색 성능이 향상되는가?
RQ2의미 수준 간 주의 기반 그래프 추론이 교차 모달 정렬 및 추론 능력을 향상시키는가?
RQ3기존의 공동 임베딩 모델에 비해 데이터셋 간 일반화 능력이 뛰어나게 되는가?
RQ4역할 전환이나 개체 교체와 같은 미세한 의미적 차이를 얼마나 잘 구분하는가?
RQ5계층적 매칭을 융합하면 불완전하거나 부분적인 기술에 대해서도 성능 향상이 이루어지는가?

주요 결과

HGR 모델은 MSR-VTT에서 텍스트-비디오 검색 시 평균 역순위(MedR)가 24로 기록되었으며, 비디오-텍스트 검색 시 11을 기록하여 이전 방법들을 능가한다.
세분화된 이진 선택 작업에서 HGR는 평균 정확도 78.61%를 달성하여 VSE++(77.37%)와 Dual Encoding(76.43%)에 비해 뚜렷한 우월성을 보였다. 이는 미세한 의미 변화를 탐지하는 데서의 능력을 입증한다.
불완전한 이벤트 작업에서 가장 높은 성능 향상을 보였으며(정확도 82.04%), 더 포괄적인 기술을 선호하는 능력을 입증했다.
계층적 수준의 융합이 최고의 성능을 보였으며(텍스트-비디오 검색에서 R@1 71.9%), 개별 수준을 초월하여 다수 수준 추론의 이점을 확인했다.
정성적 결과에서는 HGR가 모든 동작과 개체를 포함한 비디오를 성공적으로 검색하고, 핵심 구성 요소가 누락된 비디오는 거부하는 것으로 나타났다.
Youtube2Text와 같이 새로운 데이터셋에 대해서도 잘 일반화됨을 보여, 계층적 표현 학습의 강건성과 이식 가능성의 잠재력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.