[论文解读] Yin and Yang: Balancing and Answering Binary Visual Questions
本文提出了一种使用抽象场景来消除语言先验、从而实现平衡二元视觉问答(VQA)的框架,该框架通过将问题形式化为视觉验证任务——利用语言学解析提取查询概念(P, S, R),并在图像中验证其存在性,从而在平衡数据集上实现了最先进性能,优于依赖有偏见的真实图像数据的先前模型。
The complex compositional structure of language makes problems at the intersection of vision and language challenging. But language also provides a strong prior that can result in good superficial performance, without the underlying models truly understanding the visual content. This can hinder progress in pushing state of art in the computer vision aspects of multi-modal AI. In this paper, we address binary Visual Question Answering (VQA) on abstract scenes. We formulate this problem as visual verification of concepts inquired in the questions. Specifically, we convert the question to a tuple that concisely summarizes the visual concept to be detected in the image. If the concept can be found in the image, the answer to the question is "yes", and otherwise "no". Abstract scenes play two roles (1) They allow us to focus on the high-level semantics of the VQA task as opposed to the low-level recognition problems, and perhaps more importantly, (2) They provide us the modality to balance the dataset such that language priors are controlled, and the role of vision is essential. In particular, we collect fine-grained pairs of scenes for every question, such that the answer to the question is "yes" for one scene, and "no" for the other for the exact same question. Indeed, language priors alone do not perform better than chance on our balanced dataset. Moreover, our proposed approach matches the performance of a state-of-the-art VQA approach on the unbalanced dataset, and outperforms it on the balanced dataset.
研究动机与目标
- 为解决二元VQA中普遍存在的语言先验问题,即模型在不检查图像的情况下也能正确回答问题。
- 设计一个使用成对抽象场景的平衡数据集,针对同一问题在相反答案下配对,确保任一答案不会因语言统计而占优。
- 开发一种视觉验证框架,将问题解析为结构化组件(P, S, R),并检查其在图像中的存在性。
- 证明模型可通过真正理解视觉内容而非利用数据集偏差,在平衡数据上实现更高准确率。
提出的方法
- 该方法使用斯坦福依存句法分析和词性标注,将每个二元问题转化为表示主体、对象和关系的结构化元组(P, S, R)。
- P(主体)被识别为句子中的名词性主语或被动主语,后接介词及对象或位置名词。
- S(对象)被提取为P之后的第一个名词,其前的形容词也一并关联;特殊短语如“in front of”作为例外处理。
- R(关系)被分配为P和S之后的所有剩余词,捕捉与查询相关的动词或修饰语。
- 模型通过关注与P和S组件相对应的图像区域,执行视觉验证,检查所描述的概念是否存在。
- 系统在新收集的成对抽象场景平衡数据集上进行训练和评估,其中每个问题在两幅视觉相似的图像中分别有一个“是”和一个“否”的答案。
实验结果
研究问题
- RQ1能否通过使用抽象场景构建平衡数据集,有效消除二元VQA中的语言先验?
- RQ2基于问题语言学解析的视觉验证方法,在无偏见数据集上的表现是否优于端到端模型?
- RQ3模型在多大程度上可以实现高准确率,而无需依赖训练数据中与图像无关的统计偏差?
- RQ4从问题中结构化提取概念(P, S, R)是否能带来更可解释且更准确的视觉推理?
主要发现
- 所提方法在基于未平衡MS COCO的VQA数据集上达到与最先进VQA模型相当的性能,证明了其竞争力。
- 在平衡数据集上,所提方法显著优于同一最先进模型,证明其依赖于视觉理解而非语言偏差。
- 仅语言模型在仅使用问题统计的情况下,二元VQA准确率超过78%,凸显现有基准中数据集偏差的严重性。
- 平衡数据集消除了语言先验:仅语言模型在新数据上的表现达到随机水平(50%),证实无统计捷径存在。
- 使用抽象场景可实现对视觉理解的受控评估,将语义推理与低层次识别挑战分离。
- 将问题结构化解析为P、S和R组件,可实现精确的视觉验证,提升模型的可解释性与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。