[论文解读] Objects2action: Classifying and localizing actions without any video example
本文提出 Objects2action,一种零样本动作识别框架,可在无需任何视频样本或动作标注的情况下对视频中的动作进行分类与定位。该方法利用基于 skip-gram 的 ImageNet 物体类别语义词嵌入,采用动作-物体亲和力的凸组合,并仅依赖文本和物体级别的先验知识,在动作分类与时空定位任务上取得了优异性能。
The goal of this paper is to recognize actions in video without the need for examples. Different from traditional zero-shot approaches we do not demand the design and specification of attribute classifiers and class-to-attribute mappings to allow for transfer from seen classes to unseen classes. Our key contribution is objects2action, a semantic word embedding that is spanned by a skip-gram model of thousands of object categories. Action labels are assigned to an object encoding of unseen video based on a convex combination of action and object affinities. Our semantic embedding has three main characteristics to accommodate for the specifics of actions. First, we propose a mechanism to exploit multiple-word descriptions of actions and objects. Second, we incorporate the automated selection of the most responsive objects per action. And finally, we demonstrate how to extend our zero-shot approach to the spatio-temporal localization of actions in video. Experiments on four action datasets demonstrate the potential of our approach.
研究动机与目标
- 在无需任何标注视频样本或动作标注的情况下,实现视频中的零样本动作识别。
- 克服传统零样本方法依赖人工定义属性及类别到属性映射的局限性。
- 开发一种可扩展的语义嵌入框架,利用丰富的物体级别数据(图像、标签、文本)实现动作理解。
- 将零样本识别扩展至无训练样本的时空动作定位任务。
- 通过语义嵌入实现对大规模视频集合中动作类别的自由文本查询。
提出的方法
- 使用在数千个 ImageNet 物体类别上训练的 skip-gram 模型构建语义词嵌入。
- 通过嵌入空间中动作与物体亲和力的凸组合,将动作标签分配给未见的视频片段。
- 整合动作和物体的多词描述,以提升语义表示的保真度。
- 通过学习到的亲和力建模,自动识别每项动作最相关的物体。
- 对词嵌入应用 Fisher 向量编码,以建模分布语义并提升表示精度。
- 使用 tubelet 候选区域和物体响应分数,实现无需任何示例视频的零样本时空动作定位。
实验结果
研究问题
- RQ1是否可以在不使用任何训练样本或动作标注的情况下实现视频中的动作识别?
- RQ2基于物体类别和文本描述的语义嵌入是否能在动作识别中超越基于属性的零样本方法?
- RQ3所提出的基于物体的嵌入在零样本时空动作定位中的有效性如何?
- RQ4自由文本查询是否可在不依赖视频样本或标注的情况下检索到相关动作视频?
- RQ5对物体嵌入和未见动作类别中的稀疏性进行建模是否能提升识别性能?
主要发现
- 所提出的 Objects2action 框架在四个基准数据集上实现了有前景的零样本动作分类性能,且未使用任何视频样本。
- 该方法在 UCF Sports 数据集上实现了有效的零样本时空动作定位,AUC 分数与完全监督基线方法相当,尽管未使用任何训练样本。
- 在定位任务中,对于更高的重叠阈值,该零样本方法在某些情况下优于监督方法,表明其对定位精度要求具有鲁棒性。
- 在 THUMOS14 上的自由文本查询成功检索到如 'fight in ring' 和 'dancing' 等未见动作的相关视频,即使查询词不在 101 个训练类别中。
- 系统可检索到 'smelling food' 和 'hit wicket'(板球)相关视频片段,但性能随查询具体性和与已知类别的语义接近程度而异。
- 对物体嵌入和未见动作表示中的稀疏性进行建模可提升性能,证明了结构化、非均匀特征表示相比简单平均的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。