[论文解读] Directed Acyclic Graph Neural Networks
DAGNN 通过对顶点按拓扑顺序处理、使用来自直接前驱的注意力聚合以及基于 GRU 的更新,专为有向无环图设计的神经网络,在 DAG 中心任务上实现了最先进的性能。
Graph-structured data ubiquitously appears in science and engineering. Graph neural networks (GNNs) are designed to exploit the relational inductive bias exhibited in graphs; they have been shown to outperform other forms of neural networks in scenarios where structure information supplements node features. The most common GNN architecture aggregates information from neighborhoods based on message passing. Its generality has made it broadly applicable. In this paper, we focus on a special, yet widely used, type of graphs -- DAGs -- and inject a stronger inductive bias -- partial ordering -- into the neural network design. We propose the \emph{directed acyclic graph neural network}, DAGNN, an architecture that processes information according to the flow defined by the partial order. DAGNN can be considered a framework that entails earlier works as special cases (e.g., models for trees and models updating node representations recurrently), but we identify several crucial components that prior architectures lack. We perform comprehensive experiments, including ablation studies, on representative DAG datasets (i.e., source code, neural architectures, and probabilistic graphical models) and demonstrate the superiority of DAGNN over simpler DAG architectures as well as general graph architectures.
研究动机与目标
- 在图神经网络中将 DAG 的部分有序性作为强归纳偏置。
- 开发一个 DAG 专用的神经体系结构,利用当前层前驱信息来更新节点表示。
- 将现有的 DAG 架构统一在一个通用框架下,并在来自代码、神经架构和概率模型的 DAG 数据集上展示经验改进。
提出的方法
- 给出一个 DAG 专用的类似 MPNN 的框架,其方程为 (3)–(4),其中 h_v^l 的更新使用当前层前驱信息。
- 将 G^l 设为对直接前驱 P(v) 的注意力聚合器,软最大权重依赖于 h_v^{l-1} 和 h_u^l(方程 (5) 和 (6))。
- 使用循环组合算子 F^l(GRU)来更新节点表示(方程 (7))。
- 可选地通过使用反向 DAG 支持双向信息流。
- 采用一个读出层,在目标节点上进行聚合(如有必要也对通过反向处理的源节点进行聚合),并连接层级表示(方程 (8))。
- 在消息计算中扩展边类型嵌入(方程 (9)),以加入边属性。
实验结果
研究问题
- RQ1一个利用部分有序性的 DAG 感知 GNN 是否能够在 DAG 结构数据上提升表示质量,相较于标准 MPNN?
- RQ2架构选择(注意力 vs 受控求和、多层深度、读出策略、边属性)对 DAG 任务的性能有何影响?
- RQ3DAGNN 的理论性质(置换不变性、单射性)是什么,拓扑分组与双向性如何影响效率?
- RQ4DAGNN 在来自源码、神经架构和贝叶斯网络等多样化 DAG 领域的表现如何?
主要发现
- DAGNN 在 TOK 和 LP 任务上的 OG BG CODE 数据集上优于广泛的 DAG 专用和通用 GNN 基线,DAGNN 在 TOK-15 上达到 34.41 对比 32.64,且在 LP-15 上的性能高于大多数基线。
- 在潜在表示任务 NA 和 BN 上,DAGNN 取得最佳 RMSE 与 Pearson r,超越 D-VAE 及其他自编码器基线(NA:RMSE 0.264,r 0.964;BN:RMSE 0.122,r 0.993)。
- 消融研究表明基于注意力的聚合至关重要,用 gated-sum 代替或移除边属性在大多数设置中会降低性能。
- 对 TOK-15 与 BN/NA 数据集,深度增加到两层或三层后收益递减或无显著提升,通常两到三层效果最佳。
- 拓扑批处理显著提升并行性和运行时效率,接近最小的序列批量,等于最长 DAG 路径长度。
- DAGNN 相对于其他 DAG 基线在每轮训练时间方面具有竞争力,并在较高学习率下收敛更快。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。