QUICK REVIEW

[论文解读] Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"

Saeed Amizadeh, Hamid Palangi|arXiv (Cornell University)|Jun 20, 2020

Multimodal Machine Learning Applications被引用 26

一句话总结

本文提出了一种神经符号框架 ∇-FOL，通过使用可微分一阶逻辑，将视觉问答（VQA）中的视觉感知与推理过程解耦，从而独立评估推理能力。该框架引入了一种自顶向下的校准技术，在视觉输入不完美时仍能提升推理性能，在 GQA 的困难子集上实现了 88.51% 的准确率，展现出对视觉模糊性的更强鲁棒性。

ABSTRACT

Visual reasoning tasks such as visual question answering (VQA) require an interplay of visual perception with reasoning about the question semantics grounded in perception. However, recent advances in this area are still primarily driven by perception improvements (e.g. scene graph generation) rather than reasoning. Neuro-symbolic models such as Neural Module Networks bring the benefits of compositional reasoning to VQA, but they are still entangled with visual representation learning, and thus neural reasoning is hard to improve and assess on its own. To address this, we propose (1) a framework to isolate and evaluate the reasoning aspect of VQA separately from its perception, and (2) a novel top-down calibration technique that allows the model to answer reasoning questions even with imperfect perception. To this end, we introduce a differentiable first-order logic formalism for VQA that explicitly decouples question answering from visual perception. On the challenging GQA dataset, this framework is used to perform in-depth, disentangled comparisons between well-known VQA models leading to informative insights regarding the participating models as well as the task.

研究动机与目标

为解决当前 SOTA VQA 模型中视觉感知与推理的纠缠问题，该问题阻碍了对推理能力的评估与改进。
开发一种方法，将推理与视觉感知分离，以实现对推理性能的系统性评估，且不受感知质量的影响。
研究当目标检测器未能捕捉关键属性时，VQA 模型在不完美视觉表征下的推理机制。
评估在感知噪声或误分类情况下，推理在视觉难例与易例上的稳定性和鲁棒性。
引入一种校准机制，利用上下文程序结构提升推理性能，即使在视觉输入退化时也能保持有效。

提出的方法

提出 ∇-FOL，一种可微分一阶逻辑形式化方法，将 VQA 建模为从问题中派生的逻辑程序上的组合推理过程。
通过将真实场景图作为推理模块的输入，实现视觉感知与推理的解耦，从而支持纯粹的推理评估。
采用可微分的逻辑推理引擎，处理基于对象和关系表征的逻辑程序，支持端到端反向传播。
引入一种自顶向下的上下文校准技术，利用程序结构和注意力机制，基于逻辑上下文对推理决策进行优化。
训练一个序列到序列的语义解析器，将自然语言问题转换为逻辑程序，实现与 ∇-FOL 框架的集成。
使用 GQA 数据集，包含平衡的测试-开发划分以及难/易子集，以评估在不同视觉感知质量下的推理性能。

实验结果

研究问题

RQ1在多大程度上可以独立于视觉感知评估 VQA 中的推理能力？这种解耦如何提升模型可解释性？
RQ2当视觉感知不完美或不完整时，SOTA VQA 模型（如 LXMERT 和 MAC）在推理任务上的表现如何？
RQ3自顶向下的上下文校准是否能在不依赖完美视觉特征的情况下，提升在视觉模糊示例上的推理鲁棒性？
RQ4当感知质量下降时，逻辑相关问题之间的推理行为是否保持一致？这反映了模型的何种可靠性特征？
RQ5在 VQA 模型中引入非逻辑、上下文感知的推理机制时，准确率与一致性之间的权衡如何？

主要发现

∇-FOL 框架实现了推理能力的解耦评估，结果表明 LXMERT 在推理任务上优于 MAC，尤其在视觉困难样本上，其在困难子集上的准确率为 37.82%，而 MAC 仅为 9.20%。
自顶向下的校准显著提升了困难子集上的推理性能，将准确率从 6.32% 提升至校准后 ∇-FOL 模型的 88.51%。
易例与难例之间的准确率差距较大（例如 LXMERT 为 54.76% vs. 12.91%），但一致性差距较小，表明模型在相关问题上保持了稳定的推理行为。
校准模型在完整测试集上的一致性出现下降，表明准确率与逻辑一致性之间存在权衡。
校准模型在视觉信息丰富的样本上犯了更多错误（更高 Err_e），揭示了过度依赖上下文而牺牲逻辑保真度的风险。
本研究证实，整体 GQA 准确率无法完全反映推理能力，而模型在视觉不完美情况下的表现才是衡量视觉推理能力的更有意义指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。