[论文解读] Video-Mined Task Graphs for Keystep Recognition in Instructional Videos
本文自动从未标注的分步教程视频中发现一个概率任务图,并利用它在新视频中对关键步骤识别进行正则化,从而提升零-shot定位和学习到的视频表征。它在多个教学视频基准上取得了最先进的结果。
Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.
研究动机与目标
- 通过建模长时 instructional 视频中 keystep 的任务级结构来激发对过程性活动的理解。
- 从未标注的 how-to 视频中自动挖掘一个概率任务图,以捕捉 keystep 的依赖关系和常见转换。
- 将挖掘出的任务图作为先验,用于在新视频中正则化并改进 keystep 的识别。
- 展示在 HowTo100M 上对零-shot keystep 定位和大规模视频表征学习的好处,包括对下游任务的影响。
提出的方法
- 定义一个来自 WikiHow 及任务特定数据集等文本库的 keystep 词汇表 K。
- 通过测量剪辑特征(视觉和叙述)与 keystep 嵌入之间的相似性,为视频剪辑生成初步的 keystep 赋值。
- 构建一个被视频挖掘的任务图 T = (V,E,w),其中节点是 keysteps,定向边编码从数据中学习得到的概率性转移 w(i,j;T)。
- 通过计算置信度对新视频中的 keystep 预测进行正则化,并在需要时在 T 上执行 PathSearch(基于 Dijkstra)以在置信锚点之间推断高概率的 keystep 序列。
- 将 keystep 标签整合为伪标签,以在 HowTo100M、COIN 与 CrossTask 的下游任务上训练改进的视频表征。
实验结果
研究问题
- RQ1一个从未标注的 how-to 视频中挖掘的概率任务图是否能够有效编码跨多任务的 keystep 依赖关系?
- RQ2将视频挖掘的任务图作为先验,是否相比文本或视频基线提升零-shot keystep 定位?
- RQ3学到的任务图引导的表示学习是否在标准基准上的下游任务(如任务分类、keystep 预测、keystep 识别)中带来改进?
主要发现
- 在 COIN 和 CrossTask 上的零-shot keystep 识别,在文本-only、视频-only、以及视频文本模态下对强基线均有提升,使用任务图先验时提升尤为显著。
- CrossTask 上的分任务级 keystep 识别相对于以往方法取得了显著的提升,例如在表 2 中的准确率为 30.5% 而基线为 24–25%(论文中的表 2)。
- 使用图与正则化信息的方式,keystep 定位与 IoU 指标有所改善,表现为预测 Keysteps 相对于地面真实的对齐性优于 Distant Supervision、VideoCLIP、Drop-DTW 等基线。
- 在 HowTo100M 上使用带图纠正伪标签的预训练,显著提升了任务分类和 keystep 预测的准确性,在多种设置下超过 MIL-NCE、VideoCLIP、TSN 等基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。