QUICK REVIEW

[论文解读] TALL: Temporal Activity Localization via Language Query

Jiyang Gao, Chen Sun|arXiv (Cornell University)|May 5, 2017

Multimodal Machine Learning Applications被引用 94

一句话总结

本论文提出 CTRL，它是一个跨模态时序回归定位器，利用自然语言查询在未剪辑的视频中定位活动，在 TACoS 和 Charades-STA 上通过联合建模文本和视频及对齐与边界回归，优于以往方法。

ABSTRACT

This paper focuses on temporal localization of actions in untrimmed videos. Existing methods typically train classifiers for a pre-defined list of actions and apply them in a sliding window fashion. However, activities in the wild consist of a wide combination of actors, actions and objects; it is difficult to design a proper activity list that meets users' needs. We propose to localize activities by natural language queries. Temporal Activity Localization via Language (TALL) is challenging as it requires: (1) suitable design of text and video representations to allow cross-modal matching of actions and language queries; (2) ability to locate actions accurately given features from sliding windows of limited granularity. We propose a novel Cross-modal Temporal Regression Localizer (CTRL) to jointly model text query and video clips, output alignment scores and action boundary regression results for candidate clips. For evaluation, we adopt TaCoS dataset, and build a new dataset for this task on top of Charades by adding sentence temporal annotations, called Charades-STA. We also build complex sentence queries in Charades-STA for test. Experimental results show that CTRL outperforms previous methods significantly on both datasets.

研究动机与目标

通过自然语言查询推动时序活动定位，以处理开放式活动描述。
设计一个跨模态模型以将语言查询与视频片段对齐并细化时间边界。
开发基于回归的方法来调整拟议片段边界以实现精确定位。
创建并扩展数据集（Charades-STA）以支持 TALL 的句子级时序注释。
在 TACoS 与 Charades-STA 上使用稳健的定位指标对 CTRL 与基线进行评估。

提出的方法

提出 Cross-modal Temporal Regression Localizer (CTRL)，输出候选片段的对齐分数和时间偏移。
使用视觉编码器提取片段特征，包含中心表示、前-context 和后-context 表示。
使用句子编码器（LSTM 或 Skip-thought）生成共享维度的语言嵌入。
通过加法、乘法和拼接将视觉与文本特征结合，随后通过一个 FC 层形成 f_sv 以进行回归。
用多任务损失 L = L_aln + α L_reg 进行训练，其中 L_aln 鼓励正确对齐，L_reg 精化时间边界（带参数化和非参数化选项）。
对训练样本采用多尺度时间滑动窗口，并在推理阶段使用地面真值回归目标以细化边界。

实验结果

研究问题

RQ1可以使用自然语言查询在未剪辑视频中对行动进行时间定位吗？
RQ2如何设计跨模态表示以实现文本-视频的精确对齐和用于边界回归的 TALL？
RQ3时间边界回归是否比仅对齐能提升定位准确性？
RQ4相较于参数化边界偏移，非参数化时间偏移回归在行动边界上是否更有效？
RQ5CTRL 的变体在 TACoS 与 Charades-STA 上与传统动作分类器和视觉-语义基线相比表现如何？

主要发现

CTRL 在 TACoS 和 Charades-STA 上显著提升相对于基线的定位性能，包括含回归的变体。
非参数化时间偏移在边界回归中优于参数化的，带来更高的 IoU 和召回率。
Skip-thought 句子嵌入通常比 word2vec+LSTM 在 TACoS 数据集上表现更好，因为数据规模较大。
Verb+Obj 与带回归（reg-np）的 CTRL 变体达到最佳结果，显示在查询中加入对象和边界细化的好处。
CTRL（reg-np）在 TACoS 与 Charades-STA 上的 Recall@1 在 IoU=0.5 和 IoU=0.3 上达到报告方法中最高。
CTRL 超越 VSA-RNN/STV 基线和预定义的动作/对象分类器，通过端到端学习实现跨模态对齐与时序定位。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。