[论文解读] Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks
本文提出知识融合动态记忆网络(KDMN),一种通过动态记忆网络将外部知识图谱中的知识整合到开放域视觉问答中的框架。通过将相关事实检索并嵌入连续记忆空间,该模型在视觉与外部知识之间执行多跳推理,实现了最先进性能,尤其在需要世界知识的复杂问题上表现突出。
Visual Question Answering (VQA) has attracted much attention since it offers insight into the relationships between the multi-modal analysis of images and natural language. Most of the current algorithms are incapable of answering open-domain questions that require to perform reasoning beyond the image contents. To address this issue, we propose a novel framework which endows the model capabilities in answering more complex questions by leveraging massive external knowledge with dynamic memory networks. Specifically, the questions along with the corresponding images trigger a process to retrieve the relevant information in external knowledge bases, which are embedded into a continuous vector space by preserving the entity-relation structures. Afterwards, we employ dynamic memory networks to attend to the large body of facts in the knowledge graph and images, and then perform reasoning over these facts to generate corresponding answers. Extensive experiments demonstrate that our model not only achieves the state-of-the-art performance in the visual question answering task, but can also answer open-domain questions effectively by leveraging the external knowledge.
研究动机与目标
- 解决现有视觉问答模型在回答需要超越图像内容的外部世界知识的开放域问题时的局限性。
- 通过神经记忆机制实现在结构化知识库和视觉输入上的多跳推理。
- 通过引入背景知识,提升对复杂视觉问题(尤其是Who、What和Why类型)的性能。
- 设计一个统一框架,联合编码视觉特征与知识图谱嵌入,以在动态记忆模块中进行推理。
提出的方法
- 利用图像对象和问题关键词作为查询,从外部知识库(如Freebase)中检索与上下文相关的知识三元组。
- 使用知识嵌入模型将检索到的知识三元组嵌入连续向量空间,以保留实体-关系结构。
- 动态记忆网络同时关注视觉特征(来自Faster R-CNN)和嵌入的知识事实,实现在多个记忆跳跃中的迭代推理。
- 情景记忆向量通过注意力机制进行更新,以在每一步加权视觉和知识输入的相关性。
- 视觉与知识表征在共享潜在空间中融合,最终通过联合表征上的软注意力机制预测答案。
- 该框架支持端到端训练,共享超参数,并在标准与自定义的开放域视觉问答基准上进行评估。
实验结果
研究问题
- RQ1基于深度学习的视觉问答系统能否有效回答需要超越图像内容的外部世界知识的开放域问题?
- RQ2如何在神经网络架构中有效整合来自知识图谱的结构化知识与视觉特征?
- RQ3使用动态记忆网络是否能提升在视觉问答中对多条事实的推理能力?
- RQ4外部知识在多大程度上提升了对Who、What和Why等复杂问题类型的表现?
主要发现
- 完整版KDMN模型在Visual7W数据集上达到66.0%的平均准确率,较KDMN-NoKG基线提升4.0%,较KDMN-NoMem提升1.6%。
- 在开放域视觉问答中,KDMN达到57.8%的准确率,较KDMN-NoKG提升12.7%,其中6.8%来自外部知识,5.9%来自记忆机制。
- 模型在Who(5.9%)和What(4.9%)问题上表现提升最大,表明外部知识对多样化、知识密集型查询具有显著优势。
- 通过集成多个从不同初始化训练的KDMN模型,性能进一步提升至Visual7W数据集的69.4%和开放域数据集的60.9%。
- 消融实验确认,动态记忆网络与外部知识融合均至关重要,KDMN-NoMem较KDMN-NoKG高出2.4%,表明记忆增强推理具有重要价值。
- 定性案例显示,该模型能成功回答需要领域知识的问题,例如交通信号灯的功能或动物的饮食习惯,通过检索并推理外部事实实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。