Skip to main content
QUICK REVIEW

[论文解读] Learning Deep Generative Models of Graphs

Yujia Li, Oriol Vinyals|arXiv (Cornell University)|Mar 8, 2018
Advanced Graph Neural Networks参考文献 33被引用 447
一句话总结

本文提出一种基于 graph-net 的生成模型,通过模拟序列化图构建过程来学习任意图的分布,并在合成图和分子图上展示了强性能,包括条件生成。

ABSTRACT

Graphs are fundamental data structures which concisely capture the relational structure in many important real-world domains, such as knowledge graphs, physical and social interactions, language, and chemistry. Here we introduce a powerful new approach for learning generative models over graphs, which can capture both their structure and attributes. Our approach uses graph neural networks to express probabilistic dependencies among a graph's nodes and edges, and can, in principle, learn distributions over any arbitrary graph. In a series of experiments our results show that once trained, our models can generate good quality samples of both synthetic graphs as well as real molecular graphs, both unconditionally and conditioned on data. Compared to baselines that do not use graph-structured representations, our models often perform far better. We also explore key challenges of learning generative models of graphs, such as how to handle symmetries and ordering of elements during the graph generation process, and offer possible solutions. Our work is the first and most general approach for learning generative models over arbitrary graphs, and opens new directions for moving away from restrictions of vector- and sequence-like knowledge representations, toward more expressive and flexible relational data structures.

研究动机与目标

  • 激励需要超越传统随机图或基于文法的方法,在图上构建更具表达能力的生成模型。
  • 提出一种由图神经网络驱动的生成过程,按序列方式添加节点和边以构建图。
  • 展示图结构生成在合成图任务和分子图生成上优于 LSTM 基线。
  • 探索图生成中的条件化与排序问题,并在分子图上展示条件生成能力。

提出的方法

  • 定义一个序列化的图生成过程,在每一步添加一个新节点,然后再生成可能连接新节点与现有图的边。
  • 使用图网路参数化决策模块,以计算添加节点、添加边以及选择连接目标的概率。
  • 使用基于传播的图表示(多轮消息传递)来计算节点/图嵌入,供决策模块输入。
  • 通过最大化对图及其生成顺序的联合似然 p(G, π) 进行训练,使用近似(重要性采样)来估计边际似然。
  • 通过将条件向量注入初始化或输出模块来引导图的构建,从而实现条件生成。

实验结果

研究问题

  • RQ1基于图神经网络的生成模型是否能够学习包含环路和复杂拓扑的任意图的分布?
  • RQ2与基线相比,提出的模型在合成图生成任务(循环、树、Barabási–Albert 图)上的表现如何?
  • RQ3该模型是否能够生成有效、新颖的分子图,与 SMILES/LSTM 和基于语法的方法相比表现如何?
  • RQ4节点/边的排序对学习和生成有何影响,条件化是否能提升条件图生成(如分子性质)?

主要发现

数据集图模型LSTME–R 模型
Cycles84.4%48.5%0.0%
Trees96.6%30.2%0.3%
B–A Graphs0.00130.05370.3715
  • 该图生成模型在循环、树以及 Barabási–Albert 图上实现了高于 LSTM 基线的渐近对数似然性能。
  • 相比基线,图模型在循环和树上的有效样本比例更高,在 Barabási–Albert 图上的度分布对齐度也更好。
  • 在 ChEMBL 数据的分子生成中,基于图的生成的图模型在有效样本和新颖样本方面均高于在 SMILES 上训练的 LSTM 或图生成序列的模型,并且在小分子上的边际似然具有竞争力。
  • 条件图生成表明,该图模型在各条件情景下产生更多有效和新颖样本,尤其在插值和外推情形下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。