QUICK REVIEW

[论文解读] Describing Common Human Visual Actions in Images

Matteo Ruggero Ronchi, Pietro Perona|arXiv (Cornell University)|Jun 7, 2015

Multimodal Machine Learning Applications参考文献 15被引用 23

一句话总结

本文提出了 COCO-a，一个大规模、基于数据驱动的视觉动作数据集，包含140种在单目图像中可被视觉检测到的人类动作，该数据集基于 MS COCO 通过 VerbNet 的语言学分析与图像字幕生成。该数据集提供了对主体、客体、动作、姿势、情绪及空间关系的详尽、局部化的标注，可支持视觉场景理解、动作识别与图像检索系统的稳健训练与基准测试。

ABSTRACT

Which common human actions and interactions are recognizable in monocular still images? Which involve objects and/or other people? How many is a person performing at a time? We address these questions by exploring the actions and interactions that are detectable in the images of the MS COCO dataset. We make two main contributions. First, a list of 140 common `visual actions', obtained by analyzing the largest on-line verb lexicon currently available for English (VerbNet) and human sentences used to describe images in MS COCO. Second, a complete set of annotations for those `visual actions', composed of subject-object and associated verb, which we call COCO-a (a for `actions'). COCO-a is larger than existing action datasets in terms of number of actions and instances of these actions, and is unique because it is data-driven, rather than experimenter-biased. Other unique features are that it is exhaustive, and that all subjects and objects are localized. A statistical analysis of the accuracy of our annotations and of each action, interaction and subject-object combination is provided.

研究动机与目标

识别并编目日常图像中最为常见、可被视觉区分的人类动作，且不受研究者偏见影响。
在 MS COCO 数据集中创建全面、详尽且局部化的动作、主体与客体标注集合。
提供一个基准数据集，以支持视觉场景理解系统（包括视觉问答与图像检索）的训练与评估。
通过真实世界数据实证支持场景理解中语义网络表征的争论。
探索静态图像中人类动作与互动的频率、空间关系及上下文线索。

提出的方法

通过分析最大的英文动词词典（VerbNet）与 MS COCO 的人工标注字幕，构建视觉 VerbNet（VVN），识别出140种常见且可被视觉检测的动作。
对10,000张 MS COCO 图像进行完整主体-客体-动作三元组标注，包括姿势、情绪及空间关系（距离、相对位置）。
通过从真实图像描述中推导动作而非使用预设动作列表，确保标注过程基于数据且无偏见。
利用原始 MS COCO 数据集提供的像素级分割掩码，对所有主体与客体进行精确定位。
通过统计分析评估标注准确性及动作、互动与主体-客体对在频率分布上的表现。
支持对稀有组合（如“哭泣”+“水槽”）的复杂查询，以检验数据集在检索与学习任务中的表达能力与实用性。

实验结果

研究问题

RQ1在单目静态图像中，哪些常见的人类动作与互动可被视觉检测到？
RQ2真实世界场景中，动作、姿势与空间关系的频率与分布如何？
RQ3涉及人物、物体与互动的视觉动作在空间接近度、姿势与情绪语境方面有何差异？
RQ4对图像字幕与动词词典的语言学分析，在多大程度上可帮助识别全面且无偏见的视觉动作集合？
RQ5一个完全标注且基于数据驱动的数据集，能否提升视觉场景理解系统的性能与泛化能力？

主要发现

通过语言学与数据驱动分析，本研究识别出140种常见且可被视觉区分的人类动作，构建了视觉 VerbNet（VVN）分类体系。
COCO-a 数据集包含10,000张图像，对主体、客体、动作、姿势、情绪及空间关系进行了详尽标注，其规模与完整性超过现有动作数据集。
人们最常通过“处于同一组”、“陪伴”或“摆姿势”等动作与他人互动，通常处于近距离，且位置在正前方或并排。
“触摸”动作最常作用于他人、可穿戴物品或位于主体前方或下方的物体，具有高度的空间接近性及完全或轻柔接触。
稀有组合（如“打架”+“上方”或“哭泣”+“水槽”）可被成功检索，证明该数据集在复杂图像检索与零样本学习中的实用性。
统计分析证实了高标注准确性，并发现“站立”、“坐下”与“行走”等动作最为常见，而“下跪”或“蹲伏”等稀有动作则代表性不足，可能需要数据增强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。