QUICK REVIEW

[논문 리뷰] TVQA: Localized, Compositional Video Question Answering

Jie Lei, Licheng Yu|arXiv (Cornell University)|2018. 09. 05.

Multimodal Machine Learning Applications참고 문헌 37인용 수 47

한 줄 요약

TVQA는 로컬라이즈드 그라운딩이 제공되는 대규모 다중 모달 비디오 QA 데이터셋을 60–90초 클립에서 도입하며, 비디오, 자막 및 구성형 질문을 결합합니다. 다중 스트림 모델은 강력한 베이스라인을 달성하지만 여전히 인간 성능보다 뒤처집니다.

ABSTRACT

Recent years have witnessed an increasing interest in image-based question-answering (QA) tasks. However, due to data limitations, there has been much less work on video-based QA. In this paper, we present TVQA, a large-scale video QA dataset based on 6 popular TV shows. TVQA consists of 152,545 QA pairs from 21,793 clips, spanning over 460 hours of video. Questions are designed to be compositional in nature, requiring systems to jointly localize relevant moments within a clip, comprehend subtitle-based dialogue, and recognize relevant visual concepts. We provide analyses of this new dataset as well as several baselines and a multi-stream end-to-end trainable neural network framework for the TVQA task. The dataset is publicly available at http://tvqa.cs.unc.edu.

연구 동기 및 목표

다양한 대화가 긴 비디오 클립과 정렬되어 멀티모달 비디오 QA를 촉진한다.
타임스탬프가 부여된 로깅으로 큰 규모의 현실적인 데이터셋을 만들어 순간 위치 파악과 질문에 대한 대답을 평가한다.
시각적 맥락, 탐지된 개념, 자막을 QA에 통합하는 모델링을 촉진한다.
TVQA 과제의 벤치마크를 확립하기 위한 기 baseline 모델과 학습 가능한 다중 스트림 아키텍처를 제공한다.

제안 방법

60–90초 TV 쇼 클립 데이터셋을 자막과 정렬된 전사와 함께 구성한다.
로깅 부분이 포함된 구성적 질문을 수집하여 순간 위치 파악 및 다지선다 다섯 가지 정답으로 구성한다.
프레임당 Faster R-CNN과 2048차원의 ImageNet 피처를 통해 지역 시각적 특징을 추출한다.
BiLSTM으로 텍스트와 비주얼을 인코딩하고 스트림 간 컨텍스트-쿼리 어텐션 기반 융합을 적용한다.
여러 컨텍스트 스트림(자막, 비디오 영역, 시각적 개념)을 융합하고 최대 풀링된 BiLSTM 기반 점수기로 질문에 답한다.
타임스탬프 로케이션 없이도(또는 로케이션 여부와 상관없이) 베이스라인 방법들(가장 긴 답, 검색, NNS, 그리고 우리의 다중 스트림 모델)을 시연하고 평가한다.

실험 결과

연구 질문

RQ1멀티모달 모델이 비디오와 자막을 함께 사용하여 순간 그라운딩이 필요한 구성형 질문에 답할 수 있는가?
RQ2시간적 로컬라이제이션(타임스탬프)이 비디오-질문 쌍의 QA 성능에 어떤 영향을 미치는가?
RQ3자막, 지역 시각적 특징, 시각적 개념의 기여도는 복합적인 TVQA 질문에 얼마나 기여하는가?
RQ4로 grounded TVQA 과제에서 모델이 인간 성능에 얼마나 근접할 수 있는가?

주요 결과

방법	특징	ts 없음	ts 있음
Longest Answer	-	30.22	30.22
Retrieval-GloVe	-	43.50	43.50
Our Q	-	43.50	43.50
Our S+Q	-	66.36	66.36
Our S+V+Q (reg)	reg (visual concepts)	68.48	68.48

TVQA는 6개 TV쇼에서 21,793개 클립에 걸쳐 152,545개의 QA 쌍을 포함하며, 총 약 461시간의 비디오를 구성한다.
질문은 구성적이며 60–90초 클립 내부에서 로깅이 필요한 영역으로의 로컬라이징을 요구하며 비디오와 자막을 함께 사용한다.
사람의 정확도는 질문 전용(32.61%)에서 비디오와 자막을 사용하면 증가하여(비디오+자막+질문, 89.41%) 향상된다.
TF-IDF 자막-질문 매칭이 비디오 없이도 강한 성능을 달성한다(최대 49.59%).
자막, 지역 시각적 특징, 시각적 개념을 사용하는 다중 스트림 모델이 가장 높은 정확도를 달성하며, 특히 타임스탬프 가이드 로컬라이제이션으로 크게 향상된다.
로컬라이제이션(타임스탬프)은 전체 길이 클립 대비 모든 모델에서 QA 성능을 일관되게 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.