Skip to main content
QUICK REVIEW

[论文解读] Abstract Diagrammatic Reasoning with Multiplex Graph Networks

Duo Wang, Mateja Jamnik|arXiv (Cornell University)|Jan 1, 2020
Advanced Graph Neural Networks参考文献 28被引用 26
一句话总结

MXGNet 是一种多层多路网图神经网络,通过学习对象级表征并捕捉跨图层面板的多关系依赖,实现对抽象图示推理的建模。其在图示三段论任务(99.8% 准确率)和 Raven 进步矩阵基准测试(PGM 上为 89.6%,RAVEN 上为 83.91%)中达到最先进性能,优于先前模型,且在表征变化下展现出更强的泛化能力和鲁棒性。

ABSTRACT

Abstract reasoning, particularly in the visual domain, is a complex human ability, but it remains a challenging problem for artificial neural learning systems. In this work we propose MXGNet, a multilayer graph neural network for multi-panel diagrammatic reasoning tasks. MXGNet combines three powerful concepts, namely, object-level representation, graph neural networks and multiplex graphs, for solving visual reasoning tasks. MXGNet first extracts object-level representations for each element in all panels of the diagrams, and then forms a multi-layer multiplex graph capturing multiple relations between objects across different diagram panels. MXGNet summarises the multiple graphs extracted from the diagrams of the task, and uses this summarisation to pick the most probable answer from the given candidates. We have tested MXGNet on two types of diagrammatic reasoning tasks, namely Diagram Syllogisms and Raven Progressive Matrices (RPM). For an Euler Diagram Syllogism task MXGNet achieves state-of-the-art accuracy of 99.8%. For PGM and RAVEN, two comprehensive datasets for RPM reasoning, MXGNet outperforms the state-of-the-art models by a considerable margin.

研究动机与目标

  • 为解决图示任务中抽象视觉推理的挑战,特别是 Raven 进步矩阵(RPM)和图示三段论等多面板推理场景中的问题。
  • 改进现有模型在捕捉多个图层面板之间复杂、多层关系方面的不足。
  • 开发一种基于图的架构,将对象级表征与多路网结构相结合,以同时建模多种关系(例如颜色、形状、位置)。
  • 通过学习跨面板的分层、可总结的图表征,提升推理任务中的泛化能力。
  • 提供一种鲁棒且可解释的图示推理框架,可拓展至机器人装配等现实世界任务。

提出的方法

  • MXGNet 首先使用特征提取模块从所有图层面板中的每个元素提取对象级表征。
  • 它构建一个多层多路网图,其中每一层对应一个图层面板,边编码对象之间的多种属性(例如颜色、形状、位置)。
  • 分层图汇总模块将多个图的关系嵌入进行聚合,生成推理任务的高层表征。
  • 模型使用推理网络基于汇总的图特征从候选选项中预测正确答案。
  • 该架构支持两种对象级表征变体:标准 CNN 特征和空间注意力特征,二者均表现出色。
  • 该架构采用端到端训练,使用交叉熵损失进行目标预测,无需辅助监督。

实验结果

研究问题

  • RQ1多层多路网图神经网络能否有效建模抽象推理任务中多个图层面板之间的复杂、多关系依赖?
  • RQ2在 RPM 风格数据集上,MXGNet 的基于图的方法相较于 WReN 和 ResNet 等先前模型,在准确率和泛化能力方面表现如何?
  • RQ3MXGNet 在 PGM 数据集的分布外测试场景(如插值与外推)中,其泛化能力达到何种程度?
  • RQ4与单关系或非多路网图模型相比,使用多路网图是否能提升图示推理任务的性能?
  • RQ5MXGNet 是否能在不同类型的对象级表征(包括 CNN 和空间注意力特征)下保持高性能?

主要发现

  • MXGNet 在 Euler 图三段论任务中达到 99.8% 的准确率,创下新的最先进基准。
  • 在 PGM 数据集上,MXGNet 在中性划分上的测试准确率为 89.6%,比 WReN 的 76.9% 高出 12.7 个百分点。
  • 在 RAVEN 数据集上,MXGNet 在无需辅助训练的情况下达到 83.91% 的测试准确率,超越了此前最佳模型(59.56%)所采用的额外监督方法。
  • MXGNet 展现出更优的泛化能力,尤其在“插值”和“外推”场景中,其验证集与测试集准确率差距小于 WReN。
  • 两种 MXGNet 变体(使用 CNN 和空间注意力特征)在 PGM 和 RAVEN 数据集上的测试准确率均高于现有模型。
  • 该模型对对象级表征变化具有鲁棒性,尽管空间注意力特征的训练损失较低,但其性能略低于 CNN 特征,可能由于过拟合所致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。