[论文解读] Describing Common Human Visual Actions in Images
本文提出了 COCO-a,一个大规模、基于数据驱动的视觉动作数据集,包含140种在单目图像中可被视觉检测到的人类动作,该数据集基于 MS COCO 通过 VerbNet 的语言学分析与图像字幕生成。该数据集提供了对主体、客体、动作、姿势、情绪及空间关系的详尽、局部化的标注,可支持视觉场景理解、动作识别与图像检索系统的稳健训练与基准测试。
Which common human actions and interactions are recognizable in monocular still images? Which involve objects and/or other people? How many is a person performing at a time? We address these questions by exploring the actions and interactions that are detectable in the images of the MS COCO dataset. We make two main contributions. First, a list of 140 common `visual actions', obtained by analyzing the largest on-line verb lexicon currently available for English (VerbNet) and human sentences used to describe images in MS COCO. Second, a complete set of annotations for those `visual actions', composed of subject-object and associated verb, which we call COCO-a (a for `actions'). COCO-a is larger than existing action datasets in terms of number of actions and instances of these actions, and is unique because it is data-driven, rather than experimenter-biased. Other unique features are that it is exhaustive, and that all subjects and objects are localized. A statistical analysis of the accuracy of our annotations and of each action, interaction and subject-object combination is provided.
研究动机与目标
- 识别并编目日常图像中最为常见、可被视觉区分的人类动作,且不受研究者偏见影响。
- 在 MS COCO 数据集中创建全面、详尽且局部化的动作、主体与客体标注集合。
- 提供一个基准数据集,以支持视觉场景理解系统(包括视觉问答与图像检索)的训练与评估。
- 通过真实世界数据实证支持场景理解中语义网络表征的争论。
- 探索静态图像中人类动作与互动的频率、空间关系及上下文线索。
提出的方法
- 通过分析最大的英文动词词典(VerbNet)与 MS COCO 的人工标注字幕,构建视觉 VerbNet(VVN),识别出140种常见且可被视觉检测的动作。
- 对10,000张 MS COCO 图像进行完整主体-客体-动作三元组标注,包括姿势、情绪及空间关系(距离、相对位置)。
- 通过从真实图像描述中推导动作而非使用预设动作列表,确保标注过程基于数据且无偏见。
- 利用原始 MS COCO 数据集提供的像素级分割掩码,对所有主体与客体进行精确定位。
- 通过统计分析评估标注准确性及动作、互动与主体-客体对在频率分布上的表现。
- 支持对稀有组合(如“哭泣”+“水槽”)的复杂查询,以检验数据集在检索与学习任务中的表达能力与实用性。
实验结果
研究问题
- RQ1在单目静态图像中,哪些常见的人类动作与互动可被视觉检测到?
- RQ2真实世界场景中,动作、姿势与空间关系的频率与分布如何?
- RQ3涉及人物、物体与互动的视觉动作在空间接近度、姿势与情绪语境方面有何差异?
- RQ4对图像字幕与动词词典的语言学分析,在多大程度上可帮助识别全面且无偏见的视觉动作集合?
- RQ5一个完全标注且基于数据驱动的数据集,能否提升视觉场景理解系统的性能与泛化能力?
主要发现
- 通过语言学与数据驱动分析,本研究识别出140种常见且可被视觉区分的人类动作,构建了视觉 VerbNet(VVN)分类体系。
- COCO-a 数据集包含10,000张图像,对主体、客体、动作、姿势、情绪及空间关系进行了详尽标注,其规模与完整性超过现有动作数据集。
- 人们最常通过“处于同一组”、“陪伴”或“摆姿势”等动作与他人互动,通常处于近距离,且位置在正前方或并排。
- “触摸”动作最常作用于他人、可穿戴物品或位于主体前方或下方的物体,具有高度的空间接近性及完全或轻柔接触。
- 稀有组合(如“打架”+“上方”或“哭泣”+“水槽”)可被成功检索,证明该数据集在复杂图像检索与零样本学习中的实用性。
- 统计分析证实了高标注准确性,并发现“站立”、“坐下”与“行走”等动作最为常见,而“下跪”或“蹲伏”等稀有动作则代表性不足,可能需要数据增强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。