[论文解读] Activity Graph Transformer for Temporal Action Localization
本文提出 Activity Graph Transformer (AGT),一种端到端模型,将未裁剪的视频视为图来直接预测带标签的动作实例集合及其起止时间,在 THUMOS14、Charades 和 EPIC-Kitchens-100 上达到最先进的结果。
We introduce Activity Graph Transformer, an end-to-end learnable model for temporal action localization, that receives a video as input and directly predicts a set of action instances that appear in the video. Detecting and localizing action instances in untrimmed videos requires reasoning over multiple action instances in a video. The dominant paradigms in the literature process videos temporally to either propose action regions or directly produce frame-level detections. However, sequential processing of videos is problematic when the action instances have non-sequential dependencies and/or non-linear temporal ordering, such as overlapping action instances or re-occurrence of action instances over the course of the video. In this work, we capture this non-linear temporal structure by reasoning over the videos as non-sequential entities in the form of graphs. We evaluate our model on challenging datasets: THUMOS14, Charades, and EPIC-Kitchens-100. Our results show that our proposed model outperforms the state-of-the-art by a considerable margin.
研究动机与目标
- 在未裁剪的视频中,动作重叠、重复出现或非线性序列时,说明非线性时序推理的需求。
- 提出一种端到端的基于图的编码-解码器 transformer,直接预测一组动作实例(标签、起始、结束时间)。
- 通过学习使用匈牙利匹配器将预测与真实标签对齐,消除基于启发式的后处理。
- 在 THUMOS14、Charades 和 EPIC-Kitchens-100 数据集上展示最先进的性能。
提出的方法
- 使用骨干网络将视频编码为上下文图(来自 8 帧片段的 I3D 特征)。
- 使用基于图注意力的编码器生成潜在的图上下文表示。
- 使用图结构查询解码器生成一组表示潜在动作的动作嵌入。
- 通过专用头部从每个解码节点预测动作标签及归一化的起始/结束时间。
- 端到端训练,使用结合分类概率和时间接近度(L1 和 IoU)的匈牙利匹配损失。
实验结果
研究问题
- RQ1时序动作定位是否可以有效地被表述为对图的直接集合预测任务?
- RQ2对非序列化的图表示进行推理是否能提高定位,特别是对于重叠、重复出现或非序列的动作?
- RQ3AGT 与 THUMOS14、Charades 与 EPIC-Kitchens-100 的最新方法相比的性能如何?
- RQ4端到端训练结合匈牙利匹配是否足以替代动作定位中的非极大抑制等启发式方法?
主要发现
- AGT 在 THUMOS14、Charades 和 EPIC-Kitchens-100 数据集上达到最新的 mAP。
- 在 THUMOS14 上,AGT 在评估 IoU 阈值处相对前一最佳方法实现最高 3.5% 的绝对提升。
- Charades 的结果显示显著的性能领先,AGT 的 mAP 高于先前方法。
- EPIC-Kitchens-100 的结果在动词、名词和动作任务上显示出持续的增益。
- 消融研究表明,若移除编码器或解码器中的基于图的推理,定位性能会下降,强调图推理的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。