[论文解读] C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset
本文提出了C-VQA,即VQA v1.0数据集的一个组合性划分,旨在评估模型对未见过的概念组合的泛化能力。通过重新组织训练集与测试集,确保测试集中的问答对在组合上是新颖的,作者展示了现有VQA模型在性能上出现显著下降——凸显了尽管在标准基准上表现良好,但其在真正组合性方面仍存在不足。
Visual Question Answering (VQA) has received a lot of attention over the past couple of years. A number of deep learning models have been proposed for this task. However, it has been shown that these models are heavily driven by superficial correlations in the training data and lack compositionality -- the ability to answer questions about unseen compositions of seen concepts. This compositionality is desirable and central to intelligence. In this paper, we propose a new setting for Visual Question Answering where the test question-answer pairs are compositionally novel compared to training question-answer pairs. To facilitate developing models under this setting, we present a new compositional split of the VQA v1.0 dataset, which we call Compositional VQA (C-VQA). We analyze the distribution of questions and answers in the C-VQA splits. Finally, we evaluate several existing VQA models under this new setting and show that the performances of these models degrade by a significant amount compared to the original VQA setting.
研究动机与目标
- 为解决现有VQA模型缺乏组合性的问题,这些模型依赖于表面数据相关性而非真正的泛化能力。
- 创建一个新的基准数据集C-VQA,通过确保测试集问答对是训练集中出现过的概念的新组合,强制实现组合性泛化。
- 评估当前VQA模型在未在训练中共同出现过的概念组合上泛化的程度。
- 提供一种标准化的评估协议,用于衡量视觉问答中组合性泛化的能力。
- 证明即使最先进的模型在这一新的组合性设置下也难以实现有效的泛化。
提出的方法
- 将VQA v1.0数据集重新划分为训练集、验证集和测试集,使得测试集问答对在组合上是新颖的——即该问答对在训练集中完全不存在,但其中的各个概念均曾在训练中出现过。
- 确保每个测试集问答对均由在训练中单独出现过的概念(如物体、属性、关系)组合而成,但这些概念在训练中从未以相同组合形式出现过。
- 在保留原始图像-问题-答案三元组结构的同时,重新分配数据集划分,以强制实现组合性新颖性。
- 通过概念级分析验证,测试集问题涉及的概念组合在训练集中存在,但未以相同问答对形式出现过。
- 在原始VQA v1.0和新的C-VQA划分上,对多个现有VQA模型(如SAN、NMN、MCB、HieCoAtt)进行训练与评估,以比较其性能表现。
- 量化不同问题类型(如“什么颜色”、“有多少”、“是/否”)下的性能下降情况,以分析模型在组合性设置下的失败模式。
实验结果
研究问题
- RQ1现有VQA模型在多大程度上能泛化到训练过程中见过但未共同出现过的概念组合的问答对?
- RQ2在C-VQA基准上的表现与在原始VQA v1.0测试集上的表现相比,对于最先进模型有何差异?
- RQ3在组合性泛化设置下,哪些类型的问题(如“什么颜色”、“有多少”、“是/否”)表现出最大的性能下降?
- RQ4通过架构设计实现组合性的模型(如神经模块网络)在C-VQA设置下是否仍会失败?原因是什么?
- RQ5VQA v1.0与C-VQA在答案分布和问题类型分布上存在哪些差异?这些差异对模型泛化能力有何影响?
主要发现
- 所有评估的VQA模型在C-VQA上的性能均显著低于在VQA v1.0上的表现,整体准确率最高下降10.8个百分点(例如,MCB从60.97%降至54.15%)。
- 性能下降最大的问题出现在如“这是什么房间?”(NMN下降33.28%)和“是白天吗?”(深层LSTM Q + norm I下降29.52%)等类型,表明模型在空间与时间概念的未见过组合上失败。
- 在VQA v1.0上训练且具有强烈语言先验的模型(如“这是什么房间?”的常见答案为“厨房”)无法将此类先验泛化到C-VQA中新的答案(如“客厅”)。
- 即使设计用于组合性推理的模型(如NMN)在C-VQA上表现仍不佳,表明需要额外的架构归纳偏置或数据偏差缓解策略。
- 模型在VQA v1.0与C-VQA上的排名发生变化:例如,SAN在C-VQA上表现不如NMN和深层LSTM模型,表明标准基准上的表现无法预测模型的组合性泛化能力。
- 对于“数量”类问题,MCB在VQA v1.0上优于大多数模型,但在C-VQA上却被其他模型超越,表明组合性挑战因问题类型而异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。