QUICK REVIEW

[论文解读] Language-Conditioned Graph Networks for Relational Reasoning

Ronghang Hu, Anna Rohrbach|arXiv (Cornell University)|May 10, 2019

Multimodal Machine Learning Applications参考文献 43被引用 28

一句话总结

本文提出语言条件图网络（LCGN），一种通过基于自然语言输入的条件消息传递，迭代聚合关系上下文以增强视觉场景表征的框架。通过根据语言上下文动态加权边，LCGN生成上下文感知的对象表征，在视觉问答和指代表达理解任务上显著提升性能，在GQA和CLEVR-Ref+数据集上达到最先进结果。

ABSTRACT

Solving grounded language tasks often requires reasoning about relationships between objects in the context of a given task. For example, to answer the question "What color is the mug on the plate?" we must check the color of the specific mug that satisfies the "on" relationship with respect to the plate. Recent work has proposed various methods capable of complex relational reasoning. However, most of their power is in the inference structure, while the scene is represented with simple local appearance features. In this paper, we take an alternate approach and build contextualized representations for objects in a visual scene to support relational reasoning. We propose a general framework of Language-Conditioned Graph Networks (LCGN), where each node represents an object, and is described by a context-aware representation from related objects through iterative message passing conditioned on the textual input. E.g., conditioning on the "on" relationship to the plate, the object "mug" gathers messages from the object "plate" to update its representation to "mug on the plate", which can be easily consumed by a simple classifier for answer prediction. We experimentally show that our LCGN approach effectively supports relational reasoning and improves performance across several tasks and datasets. Our code is available at http://ronghanghu.com/lcgn.

研究动机与目标

解决基于局部外观的视觉表征在视觉语言理解任务中的局限性。
实现能够反映自然语言中指定关系依赖的动态、上下文感知对象表征。
通过将关系上下文嵌入场景表征，减少对任务特定、手工设计推理模块的依赖。
通过一种通用、可插拔的框架，提升复杂关系推理任务（如VQA和REF）的性能。
证明上下文感知表征可实现简单、单跳分类，同时优于具有复杂推理结构的模型。

提出的方法

场景中的每个对象表示为图中的一个节点，初始特征源自局部视觉外观。
消息传递在多轮迭代中进行，每个节点根据基于输入语言的边权重，聚合来自邻近节点的信息。
边权重通过门控注意力机制计算，该机制关注关系的文本描述（例如，'在...上'、'在...左边'、'大小相同'）。
上下文感知的节点表征通过迭代方式更新，整合与输入问题或指代表达相关的关系上下文。
最终的上下文感知表征作为输入，送入一个简单、任务特定的分类器（例如，单跳注意力）以进行答案预测或定位。
模型通过VQA的交叉熵损失和REF的边界框回归损失进行端到端训练。

实验结果

研究问题

RQ1图网络中的语言条件消息传递是否能提升视觉定位任务中的关系推理？
RQ2将消息传递基于语言上下文进行条件化，是否能带来优于静态或仅基于外观的表征的性能？
RQ3通用的、上下文感知的场景表征能否替代VQA和REF任务中复杂的、任务特定的推理模块？
RQ4该模型在具有不同关系复杂度的多样化数据集上表现如何？
RQ5与固定或对称的消息传递相比，动态的、依赖语言的边加权在特征优化方面有多大提升？

主要发现

LCGN在GQA数据集的视觉问答任务中达到最先进性能，优于先前方法（包括Stack-NMN）。
在CLEVR-Ref+数据集的指代表达理解任务中，LCGN取得新的最先进结果，表明其对复杂空间和关系查询具有强大的泛化能力。
该模型在多种局部视觉特征类型（如Faster R-CNN、ResNeXt）上均表现提升，表明上下文感知表征具有鲁棒性。
消融实验表明，语言条件消息传递至关重要——移除语言条件化会导致性能显著下降。
消息传递路径的可视化证实，模型能够学习沿语义相关关系（如'在...上'、'大小相同'、'在...左边'）路由信息，符合设计预期。
在上下文感知表征上使用单跳注意力机制即可取得具有竞争力的结果，表明丰富的关系上下文使简单而有效的推理成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。