[论文解读] FVQA: Fact-based Visual Question Answering
本文提出了FVQA,一种基于事实的视觉问答数据集,通过从外部知识库引入支持性知识三元组(例如,<猫,能够,爬树>)来扩展传统VQA,使模型能够超越视觉感知进行推理。所提出的方法通过LSTM学习问题到知识库查询的映射,在数百万条事实中实现了41.12%的top-1准确率,从而在VQA中实现显式、可解释的推理。
Visual Question Answering (VQA) has attracted a lot of attention in both Computer Vision and Natural Language Processing communities, not least because it offers insight into the relationships between two important sources of information. Current datasets, and the models built upon them, have focused on questions which are answerable by direct analysis of the question and image alone. The set of such questions that require no external information to answer is interesting, but very limited. It excludes questions which require common sense, or basic factual knowledge to answer, for example. Here we introduce FVQA, a VQA dataset which requires, and supports, much deeper reasoning. FVQA only contains questions which require external information to answer. We thus extend a conventional visual question answering dataset, which contains image-question-answerg triplets, through additional image-question-answer-supporting fact tuples. The supporting fact is represented as a structural triplet, such as . We evaluate several baseline models on the FVQA dataset, and describe a novel model which is capable of reasoning about an image on the basis of supporting facts.
研究动机与目标
- 为解决现有VQA数据集仅关注仅从图像和问题本身可回答的问题这一局限,提出一种需要外部事实知识的数据集。
- 通过为每个问答对引入结构化知识库作为支持性事实,实现VQA中更深层次的推理。
- 开发一种可扩展的VQA模型,学习将问题映射到知识库查询而非直接映射到答案,从而在多样化答案空间中实现泛化。
- 通过预测的支持性事实暴露推理链,使VQA模型更具可解释性。
提出的方法
- 通过从外部知识库(如DBpedia和ConceptNet)提取的结构化三元组(例如,<主语,谓词,宾语>)形式,扩展传统VQA数据集,增加支持性事实三元组。
- 通过对齐和规范化来自多个来源(包括WebChild、DBpedia和ConceptNet)的事实,构建统一的知识库。
- 使用基于长短期记忆网络(LSTM)的问题到查询映射模块,将自然语言问题转换为正式的知识库查询。
- 使用生成的查询查询统一知识库,检索相关事实,进而用于推理答案。
- 应用后处理步骤,对多个检索结果进行排序和选择,以提高答案准确率。
- 采用多阶段流水线:问题编码 → 知识库查询生成 → 事实检索 → 答案生成,通过支持性事实实现显式推理链。
实验结果
研究问题
- RQ1能否设计一种VQA系统,以回答需要超越视觉感知的外部事实知识的问题?
- RQ2模型如何学习将自然语言问题映射到大规模知识库中的结构化查询?
- RQ3使用支持性事实对VQA系统的可解释性和准确率有何影响?
- RQ4在开放式VQA中,问题到知识库查询的映射性能与直接问题到答案学习相比如何?
- RQ5基于事实的VQA中的主要失败模式是什么,如何加以缓解?
主要发现
- 所提出的'top-3-QQmapping'模型在知识库的数百万条事实中,实现了41.12%的top-1准确率,预测正确支持性事实,top-3准确率为45.49%。
- 当使用真实答案的问题-查询映射时,支持性事实预测准确率显著提高(top-1为56.31%),表明问题理解是主要瓶颈。
- 当答案为图像中存在视觉概念时,答案准确率显著更高(接近5倍),而当答案完全依赖知识库事实时则较低。
- 与场景或动作相关的问题相比,对象相关问题的准确率更高,这得益于预训练目标检测器(如VggNet)提供的更优特征表示。
- 失败案例主要源于错误的视觉概念检测、有缺陷的问题-查询映射或事实排序中的次优后处理。
- 该模型通过生成可解释的支持性事实,实现了显式推理,而不同于大多数先前的VQA模型所产生的黑箱答案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。