[论文解读] Explicit Knowledge-based Reasoning for Visual Question Answering
本文提出Ahab,一种视觉问答系统,通过在大规模知识库(KB)上进行显式推理,回答超越视觉内容的复杂、开放式问题。通过将视觉概念检测与SPARQL查询结合,Ahab提供准确答案和可验证的解释,在新构建的KB-VQA数据集上显著优于基于LSTM的方法,该数据集包含人工标注的推理过程。
We describe a method for visual question answering which is capable of reasoning about contents of an image on the basis of information extracted from a large-scale knowledge base. The method not only answers natural language questions using concepts not contained in the image, but can provide an explanation of the reasoning by which it developed its answer. The method is capable of answering far more complex questions than the predominant long short-term memory-based approach, and outperforms it significantly in the testing. We also provide a dataset and a protocol by which to evaluate such methods, thus addressing one of the key issues in general visual ques- tion answering.
研究动机与目标
- 解决基于LSTM的VQA模型缺乏可解释性且无法超越视觉特征进行推理的局限性。
- 使VQA系统能够回答需要外部世界知识(图像中未包含)的问题。
- 构建一个数据集和评估协议,用于测试通用的、知识密集型VQA能力。
- 通过将答案与KB实体和关系关联,提供可验证的推理路径。
- 证明显式符号推理在复杂VQA场景中优于端到端神经网络。
提出的方法
- Ahab使用深度学习从图像中检测视觉概念(对象、属性、场景类别),并将它们映射到知识库(如DBpedia)中的实体。
- 自然语言问题被解析为SPARQL查询,通过KB遍历,实现对结构化事实的多跳推理。
- 通过实体对齐和语义匹配,将视觉信息与KB推导的信息结合,形成统一的知识表示。
- 推理路径由人工评估者生成并验证,确保逻辑一致性和事实正确性。
- 采用Quepy的模块化流水线,支持灵活扩展问题类型,包括多图像比较和基于概念的图像检索。
- 通过追踪KB中查询执行路径,实现解释功能,将答案与特定事实和关系关联。
实验结果
研究问题
- RQ1VQA系统能否利用外部知识库执行显式、多步推理,回答超越图像视觉内容的问题?
- RQ2在复杂、开放式问题上,基于知识库增强的VQA系统与端到端LSTM模型相比,性能如何?
- RQ3该系统能否生成人类可理解的解释?这些解释的准确性如何?
- RQ4该系统在涉及多幅图像或抽象关系(未直接可见)的问题上,泛化能力如何?
- RQ5结构化知识对视觉问答中推理的鲁棒性和答案准确性有何影响?
主要发现
- Ahab的准确率显著高于基于LSTM的基线模型,超过80%的生成推理过程被人工评估者评为正确。
- 超过50%的LSTM模型答案被归类为‘完全错误’(等级1),而Ahab在约20%的案例中生成了‘部分正确’至‘完全正确’(等级2–5)的答案。
- 该系统成功回答了需要分类学知识的复杂问题,例如识别猫和狗均为哺乳动物,即使图像中未明确说明。
- 在多图像问题中,Ahab正确识别出视觉上差异较大的图像(如机场和火车站)之间的共享场景级概念,如‘交通基础设施’。
- 该方法在基于概念的图像检索中表现出鲁棒性,能根据属性对齐,正确识别与给定概念(如‘厨师’或‘程序员’)最相关的图像。
- KB-VQA数据集将问题分为‘视觉’、‘常识’和‘KB知识’三类,实现了对推理能力的公平且全面的评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。