QUICK REVIEW

[논문 리뷰] Local-Global Video-Text Interactions for Temporal Grounding

Jonghwan Mun, Minsu Cho|arXiv (Cornell University)|2020. 04. 16.

Multimodal Machine Learning Applications참고 문헌 36인용 수 27

한 줄 요약

이 논문은 쿼리에서 의미적 구문을 추출하고 다중 수준에서 국지-전반적 비디오-텍스트 상호작용을 모델링하는 회귀 기반 텍스트-비디오 시계열 기반 방법을 제안한다. 순차적 쿼리 어텐션, 세그먼트 수준 융합, 그리고 국지/전반적 컨텍스트 모델링을 통해, 이 방법은 최신 기술 수준(SOTA) 성능을 달성하며, Charades-STA에서 Recall@tIoU=0.5가 7.44% 향상되고 ActivityNet Captions에서 4.61% 향상된다.

ABSTRACT

This paper addresses the problem of text-to-video temporal grounding, which aims to identify the time interval in a video semantically relevant to a text query. We tackle this problem using a novel regression-based model that learns to extract a collection of mid-level features for semantic phrases in a text query, which corresponds to important semantic entities described in the query (e.g., actors, objects, and actions), and reflect bi-modal interactions between the linguistic features of the query and the visual features of the video in multiple levels. The proposed method effectively predicts the target time interval by exploiting contextual information from local to global during bi-modal interactions. Through in-depth ablation studies, we find out that incorporating both local and global context in video and text interactions is crucial to the accurate grounding. Our experiment shows that the proposed method outperforms the state of the arts on Charades-STA and ActivityNet Captions datasets by large margins, 7.44\% and 4.61\% points at Recall@tIoU=0.5 metric, respectively. Code is available in https://github.com/JonghwanMun/LGI4temporalgrounding.

연구 동기 및 목표

기존의 스캔-로컬라이제이션 방법이 전반적 쿼리 특징에 의존하고 세밀한 의미적 세부 정보를 놓친다는 한계를 해결한다.
다양한 해상도 수준에서 비디오 세그먼트와 의미적 구문 간의 상호작용을 모델링하여 시계열 기반 정확도를 향상시킨다.
비디오-텍스트 상호작용에 국소(단기) 및 전반적(장기) 컨텍스트 모델링을 명시적으로 통합하여 로컬라이제이션 성능을 향상시킨다.
개선된 의미 인식 기반 통합 비디오-텍스트 표현 학습을 통해 시간 간격의 보다 정확한 회귀를 가능하게 한다.
다양한 인물, 동작, 물체를 포함한 복잡한 텍스트 쿼리에서 의미적 구문 수준 이해의 중요성을 입증한다.

제안 방법

텍스트 쿼리에서 별개의 의미적 구문(예: 인물, 동작 등)의 표현을 추출하기 위해 순차적 쿼리 어텐션 네트워크(SQAN)를 도입한다.
각 의미적 구문의 언어적 특징을 사용하여 비디오 세그먼트에 어텐션을 적용함으로써 세그먼트 수준의 모odal 융합을 수행한다.
국소적 컨텍스트 모델링을 위해 마스크된 Non-Local 메커니즘을 갖춘 잔차 블록을 적용하여 주의를 국소적 시간 창에 제한함으로써 세밀한 정렬을 달성한다.
장거리 의존성을 비디오 세그먼트와 의미적 구문 간에 포괄하기 위해 Non-Local 블록을 사용하여 전반적 컨텍스트 모델링을 구현한다.
최종 시간 간격을 회귀하기 전에 융합된 특징을 시간적 어텐션 풀링을 통해 집계한다.
구문 추출과 로컬라이제이션을 동시에 최적화하기 위해 쿼리 인식 어텐션과 회귀 손실을 조합한 다중 과제 손실을 사용한다.

실험 결과

연구 질문

RQ1비디오-텍스트 상호작용에서 국소 및 전반적 컨텍스트 모델링을 모델링할 경우 시계열 기반 성능에 어떤 영향을 미치는가?
RQ2쿼리에서 의미적 구문을 추출하는 것과 쿼리를 단일 전반적 표현으로 간주하는 것의 영향은 무엇인가?
RQ3다양한 융합 연산(덧셈, 연결, Hadamard 곱)이 언어적 특징과 시각적 특징 간 정렬에 어떤 영향을 미치는가?
RQ4과도한 세분화를 방지하면서 효과적인 기반을 확보하기 위해 추출할 최적의 의미적 구문 수는 얼마인가?
RQ5비디오-텍스트 상호작용 파이프라인에서 모달리티 융합을 수행할 가장 적절한 시점은 언제인가(조기 vs. 후기)?

주요 결과

비디오-텍스트 상호작용에 국소 및 전반적 컨텍스트 모델링을 통합하면, 컨텍스트 모델링이 없는 기반 모델 대비 성능이 16.48% 향상된다.
특징 융합에 대해 Hadamard 곱 연산이 덧셈과 연결보다 우수한 성능을 보이며, 이는 관련 특징을 강조하는 게이팅 유사 행동 때문일 것이다.
컨텍스트 모델링 이전에 수행하는 조기 모달리티 융합이 후기 융합보다 더 좋은 성능을 내며, 이는 조기 의미 인식 기반 상호작용의 이점이 있음을 시사한다.
Charades-STA에서는 3개의 의미적 구문, ActivityNet Captions에서는 5개의 의미적 구문을 추출할 때 최적의 성능을 달성하며, 이 수치를 초과하면 과도한 세분화로 인해 성능이 저하된다.
이 모델은 최신 기술 수준 성능을 달성하였으며, Charades-STA에서 Recall@tIoU=0.5가 7.44% 절대 향상되고, ActivityNet Captions에서는 4.61% 향상되었다.
정성적 분석 결과, 전체 LGI 모델은 SQAN 단독 버전 대비 더 정확한 예측과 더 나은 어텐션 로컬라이제이션을 제공함을 확인하였으며, 이는 다중 수준 상호작용의 이점이 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.