[论文解读] Learning to Assemble Neural Module Tree Networks for Visual Grounding
本文提出神经模块树网络(NMTree),一种新颖的端到端框架,通过在自然语言句子的依存句法树上组合神经模块来实现视觉定位。通过将语言分解为细粒度的语言成分,并利用Gumbel-Softmax实现可微分的模块组合,NMTree实现了可解释的自底向上推理,在RefCOCO、RefCOCO+和RefCOCOg基准上均超越了当前最先进方法。
Visual grounding, a task to ground (i.e., localize) natural language in images, essentially requires composite visual reasoning. However, existing methods over-simplify the composite nature of language into a monolithic sentence embedding or a coarse composition of subject-predicate-object triplet. In this paper, we propose to ground natural language in an intuitive, explainable, and composite fashion as it should be. In particular, we develop a novel modular network called Neural Module Tree network (NMTree) that regularizes the visual grounding along the dependency parsing tree of the sentence, where each node is a neural module that calculates visual attention according to its linguistic feature, and the grounding score is accumulated in a bottom-up direction where as needed. NMTree disentangles the visual grounding from the composite reasoning, allowing the former to only focus on primitive and easy-to-generalize patterns. To reduce the impact of parsing errors, we train the modules and their assembly end-to-end by using the Gumbel-Softmax approximation and its straight-through gradient estimator, accounting for the discrete nature of module assembly. Overall, the proposed NMTree consistently outperforms the state-of-the-arts on several benchmarks. Qualitative results show explainable grounding score calculation in great detail.
研究动机与目标
- 为了解决现有视觉定位方法依赖整体句子嵌入或粗粒度主语-谓语-宾语三元组组合的局限性。
- 通过将依存句法树作为结构化模板,实现细粒度、类人的复合推理。
- 通过模块化设计将视觉感知与组合推理解耦,减少视觉-语言偏差。
- 通过端到端训练结合Gumbel-Softmax近似与直通梯度估计,提升对句法解析错误的鲁棒性。
- 在视觉定位中同时实现高性能与可解释性,平衡准确率与可解释性。
提出的方法
- 将依存句法树(DPTs)转换为神经模块树(NMTree)结构,其中每个节点对应一个用于定位分数计算的神经模块。
- 定义三种基本神经模块:Single(用于叶节点和根节点)、Sum(用于加法聚合)和Comp(用于关系的组合推理)。
- 以自底向上的方式计算定位分数,每个模块根据语言和视觉特征,从其子节点累积证据。
- 使用Gumbel-Softmax近似在训练过程中可微分地采样模块组合,即使树结构决策具有离散性,也能实现端到端优化。
- 应用直通梯度估计器,反向传播通过Gumbel-Softmax采样器做出的硬性决策,确保训练稳定。
- 仅使用图像和语言输入,无需额外的模块布局标注,端到端训练整个NMTree架构。
实验结果
研究问题
- RQ1与整体性或粗粒度组合模型相比,基于结构化树状神经模块网络是否能提升视觉定位的准确率与可解释性?
- RQ2当使用依存句法树作为视觉定位的推理骨架时,定位性能如何变化?
- RQ3Gumbel-Softmax与直通梯度估计在多大程度上能缓解解析错误对神经模块网络中模块组合的影响?
- RQ4所提出的NMTree模型是否在保持透明性与可解释性的同时实现了更优的性能?
- RQ5该模型的内部推理过程与人类在复杂指代表达中的组合推理能力相比如何?
主要发现
- NMTree在所有三个基准(RefCOCO、RefCOCO+和RefCOCOg)上均达到新的最先进性能,超越了现有的整体性与三元组基模型。
- 在RefCOCO和RefCOCO+上,NMTree分别实现了75.8%和72.1%的平均IoU,优于包括MAttN和AccumAttn在内的先前SOTA方法。
- 由于采用基于Gumbel-Softmax的可微分模块组合,模型对解析错误表现出更强的鲁棒性,实现了无需人工布局标注的端到端训练。
- 定性分析显示,注意力图沿树结构逐渐变得更清晰、更聚焦,表明置信度逐步提升且推理过程更加连贯。
- 人工评估确认,NMTree的内部推理步骤显著优于AccumAttn,其清晰度评分在4分制李克特量表上更高。
- 该模型通过句法树逐步整合视觉与语言证据,成功定位复杂指代表达,如“一个穿粉靴的女孩拿着的粉红色雨伞”。”
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。