[论文解读] Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering
本文提出 Prob-NMN,一种用于 VQA 的概率神经符号模型,其中潜在的符号程序通过实例化的神经模块来生成答案。它展示了数据高效的可读性,并能够探测推理的一致性和敏感性,在低监督条件下在 CLEVR 和 SHAPES 上实现改进。
We propose a new class of probabilistic neural-symbolic models, that have symbolic functional programs as a latent, stochastic variable. Instantiated in the context of visual question answering, our probabilistic formulation offers two key conceptual advantages over prior neural-symbolic models for VQA. Firstly, the programs generated by our model are more understandable while requiring lesser number of teaching examples. Secondly, we show that one can pose counterfactual scenarios to the model, to probe its beliefs on the programs that could lead to a specified answer given an image. Our results on the CLEVR and SHAPES datasets verify our hypotheses, showing that the model gets better program (and answer) prediction accuracy even in the low data regime, and allows one to probe the coherence and consistency of reasoning performed.
研究动机与目标
- 引入一个用于 VQA 的概率神经符号框架,其中符号程序是潜在变量。
- 在有限的程序监督下实现可读、易于人类理解的推理。
- 通过一致性和敏感性测试来探测模型的推理。
- 在低数据条件下的 CLEVR 和 SHAPES 数据集上展示改进的性能。
提出的方法
- 定义 p(x, z, a | i) = p(z) p(x | z) p(a | i; θ_z),其中 z 作为潜在程序,按程序符号实例化的神经模块 θ_z。
- 使用推断网络 q_φ(z | x) 将问题映射到潜在程序。
- 通过三个阶段的过程进行训练:问题编码、模块训练和联合训练。
- 为半监督和监督设置推导变分下界,并采用分阶段的优化策略。
- 用 LSTMs 参数化 p(z), p(x|z), qφ(z|x);按程序符号实例化神经模块 θ_z;预训练程序先验 p(z)。
- 使用放大因子 α, β, γ 以及 REINFORCE 来对不可微分组件进行优化,以优化完整目标。
实验结果
研究问题
- RQ1在有限的问题-程序监督下,Prob-NMN 能否学习到有意义的程序表示?
- RQ2引入概率潜在程序是否提高数据效率和推理过程的可读性?
- RQ3能否通过一致性(多个程序得到相同答案的一致性)和敏感性(答案变化在推理中体现)来对模型的潜在推理进行查询?
- RQ4在低监督条件下,所提出的方法是否在 CLEVR 和 SHAPES 上提升 VQA 准确性和程序预测?
主要发现
- Prob-NMN 在数据稀缺情境下持续优于非概率基线,提升性能。
- 在有限监督下,使用 Prob-NMN 的问题编码在程序预测准确性上显著高于基线。
- 联合训练和模块训练带来更好的 VQA 准确性以及比之前的神经符号方法更高质量(更易读)的程序。
- 在 SHAPES 上,当程序监督超过 5% 时,Prob-NMN 的测试 VQA 准确性比 NMN 高出 30–35 点。
- Prob-NMN 通过对潜在程序 p(z | i, a) 进行采样以测试相似/不同答案之间的推理一致性,从而实现对一致性和敏感性的探测试。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。