QUICK REVIEW

[论文解读] From Images to Sentences through Scene Description Graphs using Commonsense Reasoning and Knowledge

Somak Aditya, Yezhou Yang|arXiv (Cornell University)|Nov 10, 2015

Multimodal Machine Learning Applications参考文献 43被引用 48

一句话总结

本文提出了一种新颖的框架，通过利用常识推理和自动构建的知识库构建场景描述图（SDGs），从图像生成自然语言描述。通过将视觉检测结果与图像注释及WordNet中的知识相结合，该方法生成的字幕比当前最先进（SOTA）方法更具相关性和全面性，在Flickr8k、Flickr30k和MS-COCO数据集上实现了具有竞争力的图像-句子对齐性能。

ABSTRACT

In this paper we propose the construction of linguistic descriptions of images. This is achieved through the extraction of scene description graphs (SDGs) from visual scenes using an automatically constructed knowledge base. SDGs are constructed using both vision and reasoning. Specifically, commonsense reasoning is applied on (a) detections obtained from existing perception methods on given images, (b) a "commonsense" knowledge base constructed using natural language processing of image annotations and (c) lexical ontological knowledge from resources such as WordNet. Amazon Mechanical Turk(AMT)-based evaluations on Flickr8k, Flickr30k and MS-COCO datasets show that in most cases, sentences auto-constructed from SDGs obtained by our method give a more relevant and thorough description of an image than a recent state-of-the-art image caption based approach. Our Image-Sentence Alignment Evaluation results are also comparable to that of the recent state-of-the art approaches.

研究动机与目标

解决端到端图像字幕模型缺乏可解释性和推理能力的局限性。
通过引入中间语义表示——场景描述图（SDGs），弥合视觉与自然语言理解之间的鸿沟。
通过从图像注释和词典本体（如WordNet）中挖掘常识知识，提升图像字幕生成质量。
通过将感知与语言生成解耦，实现逻辑推理和可追溯的故障分析。
通过结构化、知识增强的场景表示，提升图像-句子对齐和语义理解能力。

提出的方法

从图像字幕和WordNet构建知识库，以编码关于物体、事件及其相互作用的常识知识。
使用基于深度学习的视觉系统提取高置信度的物体和场景检测结果，并附带概率置信度分数。
构建贝叶斯网络以建模检测到的物体与抽象视觉概念之间的依赖关系，从而推断可能发生的事件及其角色。
生成场景描述图（SDGs），通过推断的语义角色和常识知识表示实体、事件及其关系。
基于WordNet相似度和Jaccard系数设计图相似度度量方法，用于比较查询SDG与图像SDG，实现图像检索。
利用SDG结构将图节点和边映射到语言语法和语义，生成自然语言句子。

实验结果

研究问题

RQ1像场景描述图（SDG）这样的中间语义表示能否提升图像字幕的相关性和全面性？
RQ2从文本中获取的常识知识在多大程度上能改善视觉场景理解与字幕生成？
RQ3与端到端深度学习模型相比，基于SDG的方法在图像-句子对齐和字幕质量方面表现如何？
RQ4SDGs能否支持逻辑推理和故障分析，而黑箱模型则不能？
RQ5将视觉检测与知识库结合，是否能提升场景中事件和实体检测的准确性？

主要发现

在AMT评估中，基于SDG生成的句子在相关性和全面性方面显著优于近期SOTA图像字幕模型。
SDG方法在Flickr8k上的召回率@1为18.1，Flickr30k为26.5，MS-COCO（1k）为19.3，在大多数情况下优于BRNN基线模型。
在Flickr8k上的中位排名（Med r）为10.5，在Flickr30k上为6.0，表明其图像检索性能更优。
黄金标准评估显示，SDGs在事件和实体检测方面达到与最先进系统相当的准确率。
SDG表示支持结构化推理并提升了可解释性，使字幕生成过程中的故障可追溯分析成为可能。
基于图的相似度度量有效捕捉了图像与句子描述之间的语义对齐，支持统一的图文搜索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。