Skip to main content
QUICK REVIEW

[论文解读] Video-Mined Task Graphs for Keystep Recognition in Instructional Videos

Kumar Ashutosh, Santhosh Kumar Ramakrishnan|arXiv (Cornell University)|Jul 17, 2023
Human Pose and Action Recognition被引用 10
一句话总结

本文自动从未标注的分步教程视频中发现一个概率任务图,并利用它在新视频中对关键步骤识别进行正则化,从而提升零-shot定位和学习到的视频表征。它在多个教学视频基准上取得了最先进的结果。

ABSTRACT

Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.

研究动机与目标

  • 通过建模长时 instructional 视频中 keystep 的任务级结构来激发对过程性活动的理解。
  • 从未标注的 how-to 视频中自动挖掘一个概率任务图,以捕捉 keystep 的依赖关系和常见转换。
  • 将挖掘出的任务图作为先验,用于在新视频中正则化并改进 keystep 的识别。
  • 展示在 HowTo100M 上对零-shot keystep 定位和大规模视频表征学习的好处,包括对下游任务的影响。

提出的方法

  • 定义一个来自 WikiHow 及任务特定数据集等文本库的 keystep 词汇表 K。
  • 通过测量剪辑特征(视觉和叙述)与 keystep 嵌入之间的相似性,为视频剪辑生成初步的 keystep 赋值。
  • 构建一个被视频挖掘的任务图 T = (V,E,w),其中节点是 keysteps,定向边编码从数据中学习得到的概率性转移 w(i,j;T)。
  • 通过计算置信度对新视频中的 keystep 预测进行正则化,并在需要时在 T 上执行 PathSearch(基于 Dijkstra)以在置信锚点之间推断高概率的 keystep 序列。
  • 将 keystep 标签整合为伪标签,以在 HowTo100M、COIN 与 CrossTask 的下游任务上训练改进的视频表征。

实验结果

研究问题

  • RQ1一个从未标注的 how-to 视频中挖掘的概率任务图是否能够有效编码跨多任务的 keystep 依赖关系?
  • RQ2将视频挖掘的任务图作为先验,是否相比文本或视频基线提升零-shot keystep 定位?
  • RQ3学到的任务图引导的表示学习是否在标准基准上的下游任务(如任务分类、keystep 预测、keystep 识别)中带来改进?

主要发现

  • 在 COIN 和 CrossTask 上的零-shot keystep 识别,在文本-only、视频-only、以及视频文本模态下对强基线均有提升,使用任务图先验时提升尤为显著。
  • CrossTask 上的分任务级 keystep 识别相对于以往方法取得了显著的提升,例如在表 2 中的准确率为 30.5% 而基线为 24–25%(论文中的表 2)。
  • 使用图与正则化信息的方式,keystep 定位与 IoU 指标有所改善,表现为预测 Keysteps 相对于地面真实的对齐性优于 Distant Supervision、VideoCLIP、Drop-DTW 等基线。
  • 在 HowTo100M 上使用带图纠正伪标签的预训练,显著提升了任务分类和 keystep 预测的准确性,在多种设置下超过 MIL-NCE、VideoCLIP、TSN 等基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。