QUICK REVIEW

[论文解读] Structured Attentions for Visual Question Answering

Chen Zhu, Yanpeng Zhao|arXiv (Cornell University)|Aug 7, 2017

Multimodal Machine Learning Applications参考文献 39被引用 26

一句话总结

该论文提出了一种用于视觉问答（VQA）的结构化视觉注意力机制，通过网格结构的条件随机场（CRF）建模图像区域之间的空间关系。通过将平均场（Mean Field）和环状信念传播（Loopy Belief Propagation）推理过程展开为可微分的循环层，该模型捕捉了卷积神经网络（CNN）有效感受野限制之外的长距离依赖关系，在CLEVR数据集上性能提升9.5%，在VQA数据集上提升1.25%，达到当前最先进水平。

ABSTRACT

Visual attention, which assigns weights to image regions according to their relevance to a question, is considered as an indispensable part by most Visual Question Answering models. Although the questions may involve complex relations among multiple regions, few attention models can effectively encode such cross-region relations. In this paper, we demonstrate the importance of encoding such relations by showing the limited effective receptive field of ResNet on two datasets, and propose to model the visual attention as a multivariate distribution over a grid-structured Conditional Random Field on image regions. We demonstrate how to convert the iterative inference algorithms, Mean Field and Loopy Belief Propagation, as recurrent layers of an end-to-end neural network. We empirically evaluated our model on 3 datasets, in which it surpasses the best baseline model of the newly released CLEVR dataset by 9.5%, and the best published model on the VQA dataset by 1.25%. Source code is available at https: //github.com/zhuchen03/vqa-sva.

研究动机与目标

为解决无结构视觉注意力在VQA中难以捕捉图像区域之间空间关系的局限性。
克服深度卷积神经网络（CNN）有效感受野（ERF）受限的问题，该问题阻碍了对远距离或非重叠区域的推理。
将视觉注意力建模为网格结构CRF上的多变量分布，以编码跨区域依赖关系。
将迭代CRF推理（平均场与环状信念传播）作为可微分的循环层集成到端到端深度学习框架中。
通过实证验证，结构化注意力在具有挑战性的VQA基准上的优越性，尤其在涉及空间关系的问题上。

提出的方法

将视觉注意力建模为网格结构CRF上的多变量分布，其中每个节点代表一个图像区域，边用于编码空间关系。
使用来自CNN特征的单变量势能和成对势能，以建模相邻区域之间的空间上下文。
将平均场（Mean Field）和环状信念传播（Loopy Belief Propagation, LBP）算法展开为循环层，以迭代方式优化注意力权重。
在CRF推理中实现可微分的消息传递，使反向传播能够通过迭代步骤。
通过关注图像区域并基于结构化推理定位答案，将所得网络应用于VQA任务。
采用残差特征（res5c）和高级池化方法（如MCB）以增强特征表示能力。

实验结果

研究问题

RQ1将视觉注意力建模为结构化CRF是否能提升VQA中对空间关系的推理能力？
RQ2通过平均场或环状信念传播进行的迭代CRF推理是否能超越CNN的有效感受野，提升注意力能力？
RQ3结构化注意力与无结构注意力相比，在捕捉如‘在……右侧’等关系线索方面表现如何？
RQ4所提方法是否能在多样化的VQA数据集上泛化，特别是需要空间推理的任务？
RQ5不同推理算法（MF与LBP）及网络深度对性能的影响如何？

主要发现

所提模型在VQA 2.0测试集上达到68.18%的准确率，比最佳公开集成模型高出1.25%，在多选任务中排名第一，在开放式生成任务中排名第二。
在CLEVR数据集上，该模型比最佳基线模型高出9.5%，展现出在空间推理任务中的强大性能。
MF-SIG-T3变体表现最佳，优于MCB和MLB基线，尤其在使用Visual Genome数据预训练后优势更明显。
LBP-SIG模型在CLEVR上表现优于MF-SIG，但在VQA上表现更差，表明不同数据集对推理算法选择的敏感性存在差异。
定性分析显示，MF-SIG初始阶段会关注背景区域，随后逐步精炼至正确目标，而无结构注意力则常固定在关键名词上。
ResNet的有效感受野（ERF）不足以正确回答CLEVR和VQA中关于空间关系的问题，尤其当目标区域距离较远或尺寸较小时更为明显。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。