QUICK REVIEW

[论文解读] Simple Baseline for Visual Question Answering

Bolei Zhou, Yuandong Tian|arXiv (Cornell University)|Dec 7, 2015

Multimodal Machine Learning Applications参考文献 19被引用 292

一句话总结

该论文提出了一种简单的词袋基线模型（iBOWIMG），通过拼接问题的词嵌入和预提取的CNN图像特征，利用Softmax分类器预测答案。尽管模型结构简单，其在COCO VQA数据集上的表现仍可与复杂的循环神经网络方法相媲美，表明无需注意力机制或RNN也能实现优异性能，并通过注意力可视化和词贡献分析揭示了模型的可解释性。

ABSTRACT

We describe a very simple bag-of-words baseline for visual question answering. This baseline concatenates the word features from the question and CNN features from the image to predict the answer. When evaluated on the challenging VQA dataset [2], it shows comparable performance to many recent approaches using recurrent neural networks. To explore the strength and weakness of the trained model, we also provide an interactive web demo and open-source code. .

研究动机与目标

评估一种最小化、非循环基线模型在视觉问答任务中的性能。
探究仅通过问题词与图像特征的简单拼接，是否能在VQA基准上达到复杂模型的性能水平。
分析模型对问题词、图像内容与预测答案之间学习到的相关性。
通过词重要性排序和类激活映射（CAM）实现模型预测的可解释性。
通过公开的网络演示和代码，实现对VQA模型的交互式探索。

提出的方法

模型使用问题词的一独热编码，随后通过可学习的词嵌入层生成文本特征。
图像特征从预训练的GoogLeNet网络中提取，作为深层CNN特征。
将词特征与图像特征拼接后输入单个Softmax层，进行多分类答案标签预测。
模型在COCO VQA数据集上使用交叉熵损失和随机梯度下降进行训练。
通过反向传播Softmax输出至词嵌入层，计算词的重要性，揭示对预测影响最大的词语。
应用类激活映射（CAM）可视化每个预测答案对应的最相关图像区域，利用最终层与卷积特征之间的线性关系。

实验结果

研究问题

RQ1一个无循环或注意力机制的简单词袋模型是否能在VQA基准上实现具有竞争力的性能？
RQ2问题词与视觉特征对模型预测的相对贡献如何？
RQ3如何通过词级重要性与空间注意力图来解释模型的预测？
RQ4一个最小化模型是否能揭示数据集中潜在的偏差，例如频繁的词-答案关联？
RQ5通过CAM生成的模型隐式注意力是否与采用显式注意力机制的复杂模型相似？

主要发现

尽管结构简单，iBOWIMG基线模型在COCO VQA数据集上的表现可与最先进基于循环神经网络的模型相媲美。
模型对问题词表现出强烈依赖：例如，仅凭'color'一词即可正确回答'what is the color of the sofa'，无需图像输入。
词重要性分析显示，'doing'或'eating'等特定词语对' texting'或'hot dog'等答案具有高度预测性。
类激活映射（CAM）生成的空间注意力图能突出显示相关图像区域，如' texting'对应手机，'hot dog'对应热狗，表明模型具备隐式的空间选择性。
模型的预测常由数据集中频繁出现的词-答案关联驱动，表明其更倾向于依赖语言模式而非视觉推理。
网络演示和开源代码使用户能够交互式探索模型行为，揭示其优势（如对简单问题响应快速准确）和劣势（如在推理或模糊问题上失败）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。