[论文解读] TVQA+: Spatio-Temporal Grounding for Video Question Answering
本文提出 TVQA+,一个大规模视频问答数据集,通过添加帧级边界框实现时空定位。提出 STAGE 框架,端到端联合执行时刻定位、物体定位和问题回答,在时空监督下显著提升性能,达到当前最优结果。
We present the task of Spatio-Temporal Video Question Answering, which requires intelligent systems to simultaneously retrieve relevant moments and detect referenced visual concepts (people and objects) to answer natural language questions about videos. We first augment the TVQA dataset with 310.8K bounding boxes, linking depicted objects to visual concepts in questions and answers. We name this augmented version as TVQA+. We then propose Spatio-Temporal Answerer with Grounded Evidence (STAGE), a unified framework that grounds evidence in both spatial and temporal domains to answer questions about videos. Comprehensive experiments and analyses demonstrate the effectiveness of our framework and how the rich annotations in our TVQA+ dataset can contribute to the question answering task. Moreover, by performing this joint task, our model is able to produce insightful and interpretable spatio-temporal attention visualizations. Dataset and code are publicly available at: http: //tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus
研究动机与目标
- 为解决现有视频问答数据集中缺乏空间定位的问题,收集问题和答案中提及对象与人物在帧中的边界框。
- 提出新任务——时空视频问答,要求联合定位相关视频时刻与视觉区域。
- 设计统一的端到端可训练模型 STAGE,整合时刻定位、物体定位与问题回答。
- 通过全面消融实验与可视化分析,评估时空监督对问答性能与模型可解释性的影响。
- 提供公开的数据集与代码库,推动未来在定位视频理解方面的研究。
提出的方法
- 在 TVQA 数据集上增加 310.8K 个边界框,将问题与答案中的视觉概念与帧中具体对象和人物关联。
- 设计 STAGE 模型,统一预测时间跨度,通过边界框检测定位对象,并利用多模态特征回答问题。
- 采用双流编码器,融合视频与字幕特征,基于 QA 对条件性融合,实现对齐的多模态理解。
- 引入跨度提议网络与来自区域提议的局部特征池化($G^l$),以增强答案预测。
- 对时间定位与空间定位施加显式监督,为每个组件设计损失函数。
- 使用 BERT 进行文本编码,并通过多任务目标进行端到端训练。
实验结果
研究问题
- RQ1在视频问答数据集中添加空间定位标注,对下游问答性能有何影响?
- RQ2统一模型能否通过联合优化时刻定位、物体定位与问题回答,提升准确率与可解释性?
- RQ3时间与空间监督信号在多大程度上促进视频理解中问答性能的提升?
- RQ4不同模型组件(如局部特征或跨度提议)对时空问答任务最终性能有何影响?
- RQ5模型能否生成与人类推理一致的有意义且可解释的注意力可视化?
主要发现
- 完整 STAGE 模型在 TVQA 测试集(public)上达到 70.23% 的问答准确率,相较最佳先前结果提升 3.91% 相对准确率。
- 添加时间监督使验证集上的问答准确率从 68.56% 提升至 70.50%,证明其有效性。
- 空间监督使物体定位 mAP 提升 121.92% 相对准确率,凸显其在定位任务中的强影响。
- 使用来自跨度提议区域的局部特征($G^l$)在所有指标上表现最佳,表明其在捕捉相关线索方面的价值。
- 在推理阶段使用真实跨度时,模型达到 71.45% 的问答准确率,证实性能提升源于定位能力的改进。
- 定性分析表明,STAGE 生成的可解释时空注意力可视化与人类推理一致,显著增强模型可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。