QUICK REVIEW

[论文解读] Reasoning Visual Dialogs with Structural and Partial Observations

Zilong Zheng, Wenguan Wang|arXiv (Cornell University)|Apr 11, 2019

Multimodal Machine Learning Applications参考文献 69被引用 26

一句话总结

本文提出了一种可微分图神经网络（GNN）框架，通过将对话建模为具有部分观测节点和未知关系的马尔可夫随机场（MRF），联合推断视觉对话任务中的隐藏对话结构与答案。该模型采用受期望最大化（EM）启发的算法，迭代优化边权重与节点表示，在VisDial和VisDial-Q数据集上实现了最先进性能，通过显式推理对话实体之间的结构依赖关系实现。

ABSTRACT

We propose a novel model to address the task of Visual Dialog which exhibits complex dialog structures. To obtain a reasonable answer based on the current question and the dialog history, the underlying semantic dependencies between dialog entities are essential. In this paper, we explicitly formalize this task as inference in a graphical model with partially observed nodes and unknown graph structures (relations in dialog). The given dialog entities are viewed as the observed nodes. The answer to a given question is represented by a node with missing value. We first introduce an Expectation Maximization algorithm to infer both the underlying dialog structures and the missing node values (desired answers). Based on this, we proceed to propose a differentiable graph neural network (GNN) solution that approximates this process. Experiment results on the VisDial and VisDial-Q datasets show that our model outperforms comparative methods. It is also observed that our method can infer the underlying dialog structure for better dialog reasoning.

研究动机与目标

为解决视觉对话中的推理挑战，通过建模对话实体之间的复杂语义依赖关系。
在部分观测的图模型中，联合推断缺失的答案值与未知的对话结构（即实体间的关系）。
开发一种可微分的端到端框架，近似无监督的结构发现与推理过程。
通过基于相互依赖关系的迭代优化节点表示与边权重，提升推理性能。
通过推断的边权重显式学习并可视化对话结构，提升可解释性。

提出的方法

将对话建模为马尔可夫随机场（MRF），其中节点表示对话实体（如图像描述、问题、答案），边表示语义依赖关系。
将问题表述为缺失节点值（如答案）与未知边权重（关系）的联合推断问题，以观测节点为输入，答案作为部分观测节点。
提出一种类似期望最大化（EM）的算法：E步在给定当前边权重下估计缺失节点值；M步基于当前节点值更新边权重。
设计一种可微分GNN以近似EM过程，支持通过节点间消息传递进行反向传播与端到端训练。
节点嵌入使用预训练语言表示初始化，边权重在迭代消息传递过程中动态更新。
模型采用3–4轮消息传递的迭代推理，表现出收敛性与随着迭代次数增加的性能提升。

实验结果

研究问题

RQ1是否存在一种统一框架，可在无结构标注的情况下，联合推断视觉对话任务中的对话结构与答案？
RQ2动态学习的边权重与固定或常量边权重相比，在建模对话依赖关系方面表现如何？
RQ3与单次传递方法相比，迭代消息传递在多大程度上提升了答案预测性能？
RQ4该模型能否发现与人类推理模式一致的可解释对话结构？
RQ5所提方法是否能在不同视觉对话基准上泛化，包括需要预测下一个问题的任务？

主要发现

在VisDial v0.9上，采用3次EM迭代的完整模型表现最佳，MRR为0.6285，R@1为48.95%，R@5为79.65%，R@10为88.36%，平均排名为4.57。
无EM迭代的模型表现最差，证明了对节点与边表示进行迭代优化的必要性。
常量图变体（所有边权重设为1）优于非迭代模型，但逊于完整模型，表明动态边权重在过滤误导性信息方面至关重要。
3次迭代的模型在VisDial v0.9上实现了性能与收敛性的最佳平衡，优于2、4次迭代及其他变体。
在VisDial-Q上，完整模型达到MRR 0.4126，R@1为27.15%，R@5为56.47%，R@10为71.97%，平均排名8.86，超越先前方法如SF-QIH。
诊断实验确认，结合动态边权重的消息传递显著提升了推理性能，通过选择性传播相关对话节点信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。