QUICK REVIEW

[论文解读] TVQA: Localized, Compositional Video Question Answering

Jie Lei, Licheng Yu|arXiv (Cornell University)|Sep 5, 2018

Multimodal Machine Learning Applications参考文献 37被引用 47

一句话总结

TVQA 引入一个用于视频问答的大规模多模态数据集，针对 60–90 秒片段进行本地化定位，整合视频、字幕和组合性问题；多流模型实现了强基线，但仍落后于人类表现。

ABSTRACT

Recent years have witnessed an increasing interest in image-based question-answering (QA) tasks. However, due to data limitations, there has been much less work on video-based QA. In this paper, we present TVQA, a large-scale video QA dataset based on 6 popular TV shows. TVQA consists of 152,545 QA pairs from 21,793 clips, spanning over 460 hours of video. Questions are designed to be compositional in nature, requiring systems to jointly localize relevant moments within a clip, comprehend subtitle-based dialogue, and recognize relevant visual concepts. We provide analyses of this new dataset as well as several baselines and a multi-stream end-to-end trainable neural network framework for the TVQA task. The dataset is publicly available at http://tvqa.cs.unc.edu.

研究动机与目标

通过利用与长视频片段对齐的自然对话来推动多模态视频问答。
创建一个大规模、真实感强的数据集，带有带时间戳的定位 grounding，用于评估定位关键时刻和回答问题。
促进将视觉上下文、检测到的概念和字幕整合到问答中的建模。
提供基线模型和可训练的多流架构，为 TVQA 任务建立基准。

提出的方法

构建一个 60–90 秒的电视节目片段数据集，附有字幕和对齐的逐字稿。
收集具备定位部分的组合性问题，用于定位时刻，并提供五个多选答案。
通过 Faster R-CNN 提取每帧的区域视觉特征，以及 2048 维 ImageNet 特征。
使用 BiLSTM 编码文本和视觉信息，并在各流之间应用基于上下文-查询注意力的融合。
融合多个上下文流（字幕、视频区域、视觉概念），并用基于 BiLSTM 的最大池化评分器回答问题。
展示基线方法（最长答案、检索、近邻搜索 NNS，以及我们的多流模型），并在有无时间戳定位的情况下进行评估。

实验结果

研究问题

RQ1多模态模型是否能够联合使用视频和字幕来回答具备时刻定位的组合性问题？
RQ2时间定位（时间戳）如何影响视频-问题对上的问答性能？
RQ3字幕、区域视觉特征和视觉概念对回答复杂 TVQA 问题的相对贡献有哪些？
RQ4模型在具备定位的 TVQA 任务上能多接近人类表现？

主要发现

方法	特征	无时间戳	有时间戳
最长答案	-	30.22	30.22
Retrieval-GloVe	-	43.50	43.50
Our Q	-	43.50	43.50
Our S+Q	-	66.36	66.36
Our S+V+Q (reg)	reg (visual concepts)	68.48	68.48

TVQA 包含来自 6 部电视节目、共 21,793 段片段的 152,545 对问答，总计约 461 小时视频。
问题具备组合性，需要在 60–90 秒的片段内定位，并同时使用视频和字幕。
人类准确率从仅问题（32.61%）提升到使用视频和字幕（同时使用 V 与 S 与 Q 时达到 89.41%）。
基线 TF-IDF 字幕-问题匹配在无视频时也能达到较强的表现，最高至 49.59%。
一个使用字幕、区域视觉特征和视觉概念的多流模型达到最佳精度，显著随着时间戳引导的定位而提升。
相比整段片段，定位（时间戳）在各模型上均能持续提升问答性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。