[论文解读] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction
该论文提出DPP-Net,一种新型图像问答模型,其在卷积神经网络(CNN)中引入动态参数层,权重由基于GRU的参数预测网络自适应生成。通过应用参数哈希技术以降低计算复杂度,该模型在所有主要图像问答基准测试(包括VQA、COCO-QA和DAQUAR)中均达到最先进性能,且无需复杂的注意力机制或目标级标注。
We tackle image question answering (ImageQA) problem by learning a convolutional neural network (CNN) with a dynamic parameter layer whose weights are determined adaptively based on questions. For the adaptive parameter prediction, we employ a separate parameter prediction network, which consists of gated recurrent unit (GRU) taking a question as its input and a fully-connected layer generating a set of candidate weights as its output. However, it is challenging to construct a parameter prediction network for a large number of parameters in the fully-connected dynamic parameter layer of the CNN. We reduce the complexity of this problem by incorporating a hashing technique, where the candidate weights given by the parameter prediction network are selected using a predefined hash function to determine individual weights in the dynamic parameter layer. The proposed network---joint network with the CNN for ImageQA and the parameter prediction network---is trained end-to-end through back-propagation, where its weights are initialized using a pre-trained CNN and GRU. The proposed algorithm illustrates the state-of-the-art performance on all available public ImageQA benchmarks.
研究动机与目标
- 为解决图像问答中整体场景理解的挑战,使单一CNN能够根据问题内容自适应调整其识别任务。
- 通过应用参数哈希技术,降低全连接层中大规模动态参数预测的计算负担。
- 通过在大规模文本语料上微调GRU,提升在低数据量场景下的泛化能力。
- 在不依赖复杂注意力或检测模块的前提下,实现在多个公开图像问答基准测试中的最先进性能。
提出的方法
- 一种深层CNN,其全连接层采用动态权重,权重根据输入问题实时预测。
- 一个独立的参数预测网络,由用于问题编码的GRU编码器和用于生成动态层候选权重的全连接层组成。
- 应用哈希技巧,减少动态层中的可训练参数数量,同时保持网络容量。
- 使用反向传播对整个网络进行端到端训练,权重初始化来自预训练的CNN和GRU模型。
- 在大规模文本语料上微调GRU,以提升在数据量有限的图像问答数据集上的性能。
- 使用余弦相似度分析参数预测网络在推理过程中如何理解并检索相关问题。
实验结果
研究问题
- RQ1单一CNN架构能否根据问题的语义内容动态调整其识别任务?
- RQ2如何在深度学习模型中使大规模动态参数预测在计算上可行?
- RQ3在大规模文本语料上预训练问题编码器是否能提升在低资源图像问答数据集上的性能?
- RQ4基于哈希的参数共享策略是否能在降低模型复杂度的同时保持高性能?
- RQ5该模型在需要不同视觉与语言理解层次的多样化问题类型上,泛化能力如何?
主要发现
- 所提出的DPP-Net在三个主要图像问答基准测试(VQA、COCO-QA和DAQUAR)中均达到最先进性能。
- 在VQA数据集中,模型达到67.81%的top-10准确率,优于先前方法如ConvQA(62.95%)和DPPnet(60.77%)。
- 在COCO-QA数据集中,模型达到67.81%的top-10准确率,较此前最佳方法(DPPnet)提升7.04个百分点。
- 在DAQUAR-Reduced数据集中,模型达到34.80%的top-10准确率,显著优于此前最佳方法(DPPnet)3.62个百分点。
- 模型在多样化问题类型上表现出强泛化能力,尤其在二分类和多选题上表现优异,但在计数和目标检测任务上表现较弱。
- 在大规模文本语料上微调GRU可提升模型基于语义意图而非表面关键词理解问题的能力,定量分析显示检索到的相似问题更具语义相关性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。