Skip to main content
QUICK REVIEW

[论文解读] An Explicitly Relational Neural Network Architecture

Murray Shanahan, Kyriacos Nikiforou|arXiv (Cornell University)|May 24, 2019
Multimodal Machine Learning Applications参考文献 33被引用 25
一句话总结

该论文提出PrediNet,一种新型可微神经网络架构,通过将内部表征结构化为类似谓词演算的形式,显式地从原始像素数据中学习命题性、关系性表征。该架构通过在视觉关系推理任务的课程学习中,学习可重用、解耦的对象与关系表征,从而实现更高的数据效率、泛化能力与迁移学习性能。

ABSTRACT

With a view to bridging the gap between deep learning and symbolic AI, we present a novel end-to-end neural network architecture that learns to form propositional representations with an explicitly relational structure from raw pixel data. In order to evaluate and analyse the architecture, we introduce a family of simple visual relational reasoning tasks of varying complexity. We show that the proposed architecture, when pre-trained on a curriculum of such tasks, learns to generate reusable representations that better facilitate subsequent learning on previously unseen tasks when compared to a number of baseline architectures. The workings of a successfully trained model are visualised to shed some light on how the architecture functions.

研究动机与目标

  • 通过使神经网络能够从原始数据中学习通用的、可重用的命题表征,弥合深度学习与符号AI之间的鸿沟。
  • 解决现有神经架构产生的表征模糊、非组合性的问题,这些表征缺乏与对象、关系等符号元素的清晰映射。
  • 评估显式结构化的关系表征是否能提升视觉推理任务中的数据效率、分布外泛化能力与迁移学习性能。
  • 开发一个最小化、可解释的基准测试套件(Relations Game),用于系统性评估神经网络中的关系归纳偏置。
  • 证明通过促进显式关系结构的架构约束,可在不牺牲端到端可微性的前提下,实现更可解释、可重用的表征。

提出的方法

  • PrediNet架构采用多头点积注意力机制,并共享键与查询投影,从原始图像输入中学习对象与关系表征。
  • 其内部表征被组织为并行、独立的通道,分别处理关系三元组(主体、关系、客体),从而实现命题组件的显式解耦。
  • 网络在一系列涉及空间模式与对象构型的视觉关系推理任务上进行端到端训练,采用课程学习策略。
  • 在PrediNet上附加一个简单的多层感知机头,用于在空间推理任务上执行下游分类,以评估表征的实用性。
  • 该架构嵌入了与符号AI中相似的关系先验,其输出被结构化为可直接映射到谓词演算元素(如关系、对象、命题)的形式。
  • 通过内部表征的可视化分析网络如何在不同任务中学习解耦与组合关系信息。

实验结果

研究问题

  • RQ1能否设计一种神经网络架构,使其能够从原始像素数据中学习显式结构化、命题性的表征,且其组件可直接映射到符号元素(如对象与关系)?
  • RQ2与标准神经架构相比,学习此类显式关系表征是否能带来更高的数据效率与泛化能力?
  • RQ3通过视觉关系任务课程学习所获得的表征,在多大程度上可被迁移至新颖的、此前未见过的任务?
  • RQ4架构选择(尤其是并行、独立处理通道的使用)在多大程度上支持了解耦、可重用表征的出现?
  • RQ5一个可微、端到端的神经网络能否学习与符号推理兼容的表征,从而为未来与基于逻辑的推理系统集成铺平道路?

主要发现

  • PrediNet能够形成显式、可解释的表征,其中各个组件分别对应不同的对象与关系,从而支持组合式推理。
  • 在视觉关系任务课程上进行预训练后,该模型在未见过的任务上表现出比基线架构更高的数据效率与泛化能力。
  • 该架构支持有效的迁移学习:在某一任务上学习到的表征可被重用于新任务,即使具体对象或关系不同,只要结构相似即可。
  • 内部表征的可视化显示,网络能够学习解耦关系组件,不同注意力头分别聚焦于特定关系或对象角色。
  • 在多任务与迁移学习设置中,尤其在分布外泛化场景下,该模型的性能显著优于基线模型。
  • 该架构的结构先验使得表征更易于重组与重用,暗示了通往终身、持续学习系统的一条可行路径。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。