[论文解读] Local-Global Video-Text Interactions for Temporal Grounding
本文提出一种基于回归的文本到视频时序定位方法,通过从查询中提取语义短语,并在多个层次上建模局部-全局视频-文本交互。通过利用序列查询注意力、分段级融合以及联合局部/全局上下文建模,该方法实现了最先进性能,在 Charades-STA 上将 Recall@tIoU=0.5 提升了 7.44%,在 ActivityNet Captions 上提升了 4.61%。
This paper addresses the problem of text-to-video temporal grounding, which aims to identify the time interval in a video semantically relevant to a text query. We tackle this problem using a novel regression-based model that learns to extract a collection of mid-level features for semantic phrases in a text query, which corresponds to important semantic entities described in the query (e.g., actors, objects, and actions), and reflect bi-modal interactions between the linguistic features of the query and the visual features of the video in multiple levels. The proposed method effectively predicts the target time interval by exploiting contextual information from local to global during bi-modal interactions. Through in-depth ablation studies, we find out that incorporating both local and global context in video and text interactions is crucial to the accurate grounding. Our experiment shows that the proposed method outperforms the state of the arts on Charades-STA and ActivityNet Captions datasets by large margins, 7.44\% and 4.61\% points at Recall@tIoU=0.5 metric, respectively. Code is available in https://github.com/JonghwanMun/LGI4temporalgrounding.
研究动机与目标
- 解决现有扫描-定位方法依赖全局查询特征、忽略细粒度语义细节的局限性。
- 通过在多个粒度层次上建模视频片段与语义短语之间的交互,提升时序定位精度。
- 通过显式结合局部(短距离)和全局(长距离)上下文建模,增强定位能力。
- 通过改进语义感知的联合视频-文本表征学习,实现更精确的时间区间回归。
- 证明在涉及多个主体、动作和对象的复杂文本查询中,语义短语级理解的重要性。
提出的方法
- 引入序列查询注意力网络(SQAN),从文本查询中提取不同语义短语(如主体、动作)的表征。
- 通过利用每个语义短语的语言特征来关注视频片段,实现分段级模态融合,以突出相关的时间区域。
- 通过带有掩码的非局部机制的残差块实现局部上下文建模,将注意力限制在局部时间窗口内,以实现细粒度对齐。
- 使用非局部模块实现全局上下文建模,以捕捉语义短语与视频片段之间的长距离依赖关系。
- 在回归最终时间区间之前,使用时间注意力池化聚合融合后的特征。
- 采用多任务损失函数,结合查询感知注意力损失与回归损失,联合优化短语提取与定位。
实验结果
研究问题
- RQ1在视频-文本交互中建模局部与全局上下文如何影响时序定位性能?
- RQ2从查询中提取语义短语而非将查询视为单一全局表征,其影响是什么?
- RQ3不同的融合操作(加法、拼接、哈达玛积)如何影响语言特征与视觉特征的对齐?
- RQ4为实现有效定位,应提取多少个语义短语才为最优,避免过度分割?
- RQ5在视频-文本交互流程中,模态融合的最佳时机是早期还是晚期?
主要发现
- 在视频-文本交互中同时引入局部与全局上下文建模,相比无上下文建模的基线模型,性能提升了 16.48%。
- 哈达玛积操作在特征融合中表现优于加法与拼接,可能因其具有门控行为,能更强调相关特征。
- 在上下文建模前进行早期模态融合的性能优于晚期融合,表明早期语义感知交互具有优势。
- 在 Charades-STA 上最优提取 3 个语义短语,在 ActivityNet Captions 上为 5 个;超过此数量会因过度分割而降低性能。
- 该模型在两项数据集上均达到最先进性能,Charades-STA 上 Recall@tIoU=0.5 的绝对提升达 7.44%,ActivityNet Captions 上为 4.61%。
- 定性分析表明,完整版 LGI 模型的预测更准确,注意力定位更优,优于仅使用 SQAN 的变体,证实了多层级交互的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。