Skip to main content
QUICK REVIEW

[论文解读] Describing Common Human Visual Actions in Images

Matteo Ruggero Ronchi, Pietro Perona|arXiv (Cornell University)|Jun 7, 2015
Multimodal Machine Learning Applications参考文献 15被引用 23
一句话总结

本文提出了 COCO-a,一个大规模、基于数据驱动的视觉动作数据集,包含140种在单目图像中可被视觉检测到的人类动作,该数据集基于 MS COCO 通过 VerbNet 的语言学分析与图像字幕生成。该数据集提供了对主体、客体、动作、姿势、情绪及空间关系的详尽、局部化的标注,可支持视觉场景理解、动作识别与图像检索系统的稳健训练与基准测试。

ABSTRACT

Which common human actions and interactions are recognizable in monocular still images? Which involve objects and/or other people? How many is a person performing at a time? We address these questions by exploring the actions and interactions that are detectable in the images of the MS COCO dataset. We make two main contributions. First, a list of 140 common `visual actions', obtained by analyzing the largest on-line verb lexicon currently available for English (VerbNet) and human sentences used to describe images in MS COCO. Second, a complete set of annotations for those `visual actions', composed of subject-object and associated verb, which we call COCO-a (a for `actions'). COCO-a is larger than existing action datasets in terms of number of actions and instances of these actions, and is unique because it is data-driven, rather than experimenter-biased. Other unique features are that it is exhaustive, and that all subjects and objects are localized. A statistical analysis of the accuracy of our annotations and of each action, interaction and subject-object combination is provided.

研究动机与目标

  • 识别并编目日常图像中最为常见、可被视觉区分的人类动作,且不受研究者偏见影响。
  • 在 MS COCO 数据集中创建全面、详尽且局部化的动作、主体与客体标注集合。
  • 提供一个基准数据集,以支持视觉场景理解系统(包括视觉问答与图像检索)的训练与评估。
  • 通过真实世界数据实证支持场景理解中语义网络表征的争论。
  • 探索静态图像中人类动作与互动的频率、空间关系及上下文线索。

提出的方法

  • 通过分析最大的英文动词词典(VerbNet)与 MS COCO 的人工标注字幕,构建视觉 VerbNet(VVN),识别出140种常见且可被视觉检测的动作。
  • 对10,000张 MS COCO 图像进行完整主体-客体-动作三元组标注,包括姿势、情绪及空间关系(距离、相对位置)。
  • 通过从真实图像描述中推导动作而非使用预设动作列表,确保标注过程基于数据且无偏见。
  • 利用原始 MS COCO 数据集提供的像素级分割掩码,对所有主体与客体进行精确定位。
  • 通过统计分析评估标注准确性及动作、互动与主体-客体对在频率分布上的表现。
  • 支持对稀有组合(如“哭泣”+“水槽”)的复杂查询,以检验数据集在检索与学习任务中的表达能力与实用性。

实验结果

研究问题

  • RQ1在单目静态图像中,哪些常见的人类动作与互动可被视觉检测到?
  • RQ2真实世界场景中,动作、姿势与空间关系的频率与分布如何?
  • RQ3涉及人物、物体与互动的视觉动作在空间接近度、姿势与情绪语境方面有何差异?
  • RQ4对图像字幕与动词词典的语言学分析,在多大程度上可帮助识别全面且无偏见的视觉动作集合?
  • RQ5一个完全标注且基于数据驱动的数据集,能否提升视觉场景理解系统的性能与泛化能力?

主要发现

  • 通过语言学与数据驱动分析,本研究识别出140种常见且可被视觉区分的人类动作,构建了视觉 VerbNet(VVN)分类体系。
  • COCO-a 数据集包含10,000张图像,对主体、客体、动作、姿势、情绪及空间关系进行了详尽标注,其规模与完整性超过现有动作数据集。
  • 人们最常通过“处于同一组”、“陪伴”或“摆姿势”等动作与他人互动,通常处于近距离,且位置在正前方或并排。
  • “触摸”动作最常作用于他人、可穿戴物品或位于主体前方或下方的物体,具有高度的空间接近性及完全或轻柔接触。
  • 稀有组合(如“打架”+“上方”或“哭泣”+“水槽”)可被成功检索,证明该数据集在复杂图像检索与零样本学习中的实用性。
  • 统计分析证实了高标注准确性,并发现“站立”、“坐下”与“行走”等动作最为常见,而“下跪”或“蹲伏”等稀有动作则代表性不足,可能需要数据增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。