[论文解读] Dynamic Memory Networks for Visual and Textual Question Answering
这篇论文将 Dynamic Memory Networks (DMN) 扩展为处理视觉问答,增加了图像输入模块,并改进了记忆和输入表示,在 VQA 和 bAbI-10k 上取得了最先进的结果,同时不需要对支持事实进行监督。
Neural network architectures with memory and attention mechanisms exhibit certain reasoning capabilities required for question answering. One such architecture, the dynamic memory network (DMN), obtained high accuracy on a variety of language tasks. However, it was not shown whether the architecture achieves strong results for question answering when supporting facts are not marked during training or whether it could be applied to other modalities such as images. Based on an analysis of the DMN, we propose several improvements to its memory and input modules. Together with these changes we introduce a novel input module for images in order to be able to answer visual questions. Our new DMN+ model improves the state of the art on both the Visual Question Answering dataset and the \babi-10k text question-answering dataset without supporting fact supervision.
研究动机与目标
- 将 DMN 扩展到处理视觉与文本问答,而不需要标注的支持事实。
- 改善输入表示,以实现对文本和图像的更好交互与全局上下文。
- 增强记忆更新机制,更好地支持多遍 episodic 推理。
- 在 VQA 数据集和 bAbI-10k 文本问答数据集上展示最先进的性能。
提出的方法
- 在文本模块中引入输入融合层,通过双向 GRU 使句子之间进行交互。
- 为图像开发输入模块,将图像分割为 14x14 的局部区域,将它们投射到文本特征空间,并在区域上应用双向 GRU 以获得全局上下文。
- 将标准 DMN 注意力替换为基于注意力的 GRU,使用注意门来更新隐藏状态(Eq. 11)。
- 通过记忆更新将上下文向量 c^t 和先前记忆输入更新(Eq. 12),并可选地使用基于 ReLU 的分离更新(Eq. 13),来更新情节性记忆。
- 同时尝试软注意力和基于注意力的 GRU,并选择后者作为 DMN+。
- 在 bAbI-10k、DAQUAR-ALL 和 VQA 数据集上进行训练和评估,以与最先进的方法进行比较。
实验结果
研究问题
- RQ1DMN 是否可以扩展为在没有标注的支持事实的情况下进行视觉问答?
- RQ2对输入模块和记忆更新的改进是否能在文本问答和 VQA 任务中普遍适用?
- RQ3不同的注意力机制(软注意力 vs. 基于注意力的 GRU)如何影响 DMN+ 的推理?
- RQ4分离记忆权重对不同任务是有帮助还是有害?
主要发现
- 与先前的 DMN 变体相比,DMN+ 在 DAQUAR-ALL 和 VQA 上取得更高的准确性,且不需要标注的支持事实。
- 输入融合层改善了远距离事实/句子之间以及图像区域之间的交互,提高了文本与视觉问答的性能。
- 基于注意力的 GRU 在需要复杂位置或排序推理的问题上表现更好,特别是在文本问答中。
- 采用 ReLU 内存更新的分离记忆权重在平均上提供额外的增益,但在某些任务上可能导致过拟合。
- 总体而言,DMN+ 在 VQA 和 bAbI-10k 数据集上实现了最先进的结果,在若干任务上超越了端到端记忆网络和神经推理器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。