QUICK REVIEW

[论文解读] Video-Mined Task Graphs for Keystep Recognition in Instructional Videos

Kumar Ashutosh, Santhosh Kumar Ramakrishnan|arXiv (Cornell University)|Jul 17, 2023

Human Pose and Action Recognition被引用 10

一句话总结

本文自动从未标注的分步教程视频中发现一个概率任务图，并利用它在新视频中对关键步骤识别进行正则化，从而提升零-shot定位和学习到的视频表征。它在多个教学视频基准上取得了最先进的结果。

ABSTRACT

Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.

研究动机与目标

通过建模长时 instructional 视频中 keystep 的任务级结构来激发对过程性活动的理解。
从未标注的 how-to 视频中自动挖掘一个概率任务图，以捕捉 keystep 的依赖关系和常见转换。
将挖掘出的任务图作为先验，用于在新视频中正则化并改进 keystep 的识别。
展示在 HowTo100M 上对零-shot keystep 定位和大规模视频表征学习的好处，包括对下游任务的影响。

提出的方法

定义一个来自 WikiHow 及任务特定数据集等文本库的 keystep 词汇表 K。
通过测量剪辑特征（视觉和叙述）与 keystep 嵌入之间的相似性，为视频剪辑生成初步的 keystep 赋值。
构建一个被视频挖掘的任务图 T = (V,E,w)，其中节点是 keysteps，定向边编码从数据中学习得到的概率性转移 w(i,j;T)。
通过计算置信度对新视频中的 keystep 预测进行正则化，并在需要时在 T 上执行 PathSearch（基于 Dijkstra）以在置信锚点之间推断高概率的 keystep 序列。
将 keystep 标签整合为伪标签，以在 HowTo100M、COIN 与 CrossTask 的下游任务上训练改进的视频表征。

实验结果

研究问题

RQ1一个从未标注的 how-to 视频中挖掘的概率任务图是否能够有效编码跨多任务的 keystep 依赖关系？
RQ2将视频挖掘的任务图作为先验，是否相比文本或视频基线提升零-shot keystep 定位？
RQ3学到的任务图引导的表示学习是否在标准基准上的下游任务（如任务分类、keystep 预测、keystep 识别）中带来改进？

主要发现

在 COIN 和 CrossTask 上的零-shot keystep 识别，在文本-only、视频-only、以及视频文本模态下对强基线均有提升，使用任务图先验时提升尤为显著。
CrossTask 上的分任务级 keystep 识别相对于以往方法取得了显著的提升，例如在表 2 中的准确率为 30.5% 而基线为 24–25%（论文中的表 2）。
使用图与正则化信息的方式，keystep 定位与 IoU 指标有所改善，表现为预测 Keysteps 相对于地面真实的对齐性优于 Distant Supervision、VideoCLIP、Drop-DTW 等基线。
在 HowTo100M 上使用带图纠正伪标签的预训练，显著提升了任务分类和 keystep 预测的准确性，在多种设置下超过 MIL-NCE、VideoCLIP、TSN 等基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。