Skip to main content
QUICK REVIEW

[论文解读] Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations

Ranjay Krishna, Yuke Zhu|arXiv (Cornell University)|Feb 23, 2016
Multimodal Machine Learning Applications被引用 251
一句话总结

Visual Genome 提供一个密集标注的图像数据集,包含对象、属性和关系,以及区域图和场景图,以及基于区域的问答,用以实现认知场景理解。

ABSTRACT

Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in an image. When asked "What vehicle is the person riding?", computers will need to identify the objects in an image as well as the relationships riding(man, carriage) and pulling(horse, carriage) in order to answer correctly that "the person is riding a horse-drawn carriage". In this paper, we present the Visual Genome dataset to enable the modeling of such relationships. We collect dense annotations of objects, attributes, and relationships within each image to learn these models. Specifically, our dataset contains over 100K images where each image has an average of 21 objects, 18 attributes, and 18 pairwise relationships between objects. We canonicalize the objects, attributes, relationships, and noun phrases in region descriptions and questions answer pairs to WordNet synsets. Together, these annotations represent the densest and largest dataset of image descriptions, objects, attributes, relationships, and question answers.

研究动机与目标

  • 通过建模图像中的互动和关系,推动从对象识别走向认知场景理解。
  • 提供密集的区域级注释(对象、属性、关系),并规范化为 WordNet 同义词集合。
  • 将视觉概念与语言联系起来,并实现结构化表示(区域图与场景图)。
  • 提供与描述配对的基于区域的问答,以桥接视觉与自然语言处理任务。
  • 创建一个大型且多样化的数据集,用于对全面视觉推理的模型进行基准测试。

提出的方法

  • 为每张图像收集密集的区域描述(平均每张图像 42 条)并附带边界框。
  • 提取并将每个区域的对象、属性和关系规范化为 WordNet 同义词集合。
  • 从区域级注释构建区域图,并为每张图像建立统一的场景图。
  • 将描述与区域级问答集和自由格式问答集配对(基于区域的问答)。
  • 通过 Amazon Mechanical Turk 进行众包数据收集,设置多阶段任务和质量控制。
  • 提供七个数据组件:区域描述、对象、属性、关系、区域图、场景图和问答对。

实验结果

研究问题

  • RQ1我们如何密集地标注具有对象、属性和关系的图像,以实现认知理解?
  • RQ2与语言绑定的区域图和场景图能否提升如问答等视觉推理任务?
  • RQ3密集的基于区域的描述和问答对将视觉概念与自然语言处理表征联系起来的影响是什么?
  • RQ4WordNet 同义词集合标准化如何帮助跨图像查询和知识迁移?
  • RQ5实现全面场景理解需要何种规模和多样性的标注?

主要发现

  • 该数据集覆盖 108,249 张图像,平均每张图像包含 21 个对象、18 个属性和 18 个关系。
  • 每张图像平均包含大约 42 条区域描述和 17 对基于区域的问答。
  • 总体收集了 170 万个问答对,规模超过了之前的问答数据集。
  • 对象、属性和关系被规范化为 WordNet 同义词集合,以实现标准化查询。
  • 区域图(按区域)和每张图像的综合场景图提供结构化表示。
  • Visual Genome 强调密集、基于区域的描述,以捕捉图像中的多重“故事”。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。