QUICK REVIEW

[论文解读] Iterative Visual Reasoning Beyond Convolutions

Xinlei Chen, Li-Jia Li|arXiv (Cornell University)|Mar 29, 2018

Multimodal Machine Learning Applications参考文献 51被引用 29

一句话总结

该论文提出了一种新颖的迭代视觉推理框架，通过双模块架构将空间与语义关系整合，超越了卷积网络的局限：局部模块采用并行空间记忆，全局图推理模块则结合知识图、区域图和分配图。该框架在ADE20K数据集上实现了8.4%的类平均精度绝对提升，并在检测场景中表现出对缺失区域的强大鲁棒性。

ABSTRACT

We present a novel framework for iterative visual reasoning. Our framework goes beyond current recognition systems that lack the capability to reason beyond stack of convolutions. The framework consists of two core modules: a local module that uses spatial memory to store previous beliefs with parallel updates; and a global graph-reasoning module. Our graph module has three components: a) a knowledge graph where we represent classes as nodes and build edges to encode different types of semantic relationships between them; b) a region graph of the current image where regions in the image are nodes and spatial relationships between these regions are edges; c) an assignment graph that assigns regions to classes. Both the local module and the global module roll-out iteratively and cross-feed predictions to each other to refine estimates. The final predictions are made by combining the best of both modules with an attention mechanism. We show strong performance over plain ConvNets, \eg achieving an $8.4\%$ absolute improvement on ADE measured by per-class average precision. Analysis also shows that the framework is resilient to missing regions for reasoning.

研究动机与目标

解决当前识别系统仅依赖堆叠卷积网络、缺乏全局推理能力的局限性。
通过引入外部知识库中的结构化知识，缓解学习罕见或未见语义关系时的数据稀缺问题。
在真实检测流水线中常见的区域输入不完整或缺失情况下，实现鲁棒的视觉推理。
开发一种联合推理系统，通过注意力机制在迭代过程中交叉融合局部与全局模块，持续优化预测。
通过显式建模空间与语义关系，提升细粒度及复杂场景理解任务的性能。

提出的方法

采用基于空间记忆[4]的局部模块，通过并行更新机制高效维护和迭代优化区域级别的信念。
构建包含三个相互关联图的全局图推理模块：知识图编码物体类别之间的语义关系，区域图捕捉图像区域之间的空间关系，分配图将区域与类别关联。
在全局图中实施迭代消息传递，利用空间与语义关系传播并优化预测结果。
通过迭代式交叉馈送机制整合局部与全局模块，实现不同抽象层级间的相互优化。
利用注意力机制融合两个模块的最终预测结果，动态加权每个输出最相关的特征。
应用重加权与迭代推理策略，提升在缺失区域条件下的鲁棒性与收敛性。

实验结果

研究问题

RQ1一种整合空间与语义关系的视觉推理框架，是否能在复杂场景理解任务中显著超越标准的基于ConvNet的模型？
RQ2引入外部知识库中的结构化知识，如何提升推理性能，尤其是在罕见或未见类别上的表现？
RQ3当由于区域提议网络不完善导致区域缺失时，该框架在多大程度上仍能保持高性能？
RQ4局部与全局模块之间的迭代交叉馈送是否能带来比独立模块更准确且更稳定的预测？
RQ5基于图的推理机制在建模长距离依赖与上下文关系方面，与端到端卷积网络相比表现如何？

主要发现

与基线ConvNet相比，该框架在ADE20K数据集上实现了8.4%的类平均精度绝对提升，显著优于仅增加深度的模型。
在COCO数据集上，即使所有类别均为物体级别，该框架仍实现了3.7%的类平均精度绝对增益，表明其在检测导向基准上的强大泛化能力。
仅使用全局图模块的性能已优于局部模块，表明通过结构化图实现的长距离区域间通信，可将推理能力拓展至局部感受野之外。
该框架对缺失区域具有高度鲁棒性：即使仅保留30.5%的真值区域（IoU阈值δ = 0.8），在“后处理”过滤设置下仍保持2.4%的性能优势。
性能随区域损失增加而平滑下降，仅在极低召回率时（δ = 0.9，召回率3.9%）推理反而导致性能下降，证实了该框架在输入不完整时的稳定性。
消融实验表明，移除知识图或空间关系会导致性能显著下降，验证了两个组件对有效推理的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。