QUICK REVIEW

[论文解读] Deep Feature Learning for Graphs

Ryan A. Rossi, Rong Zhou|arXiv (Cornell University)|Apr 28, 2017

Advanced Graph Neural Networks参考文献 20被引用 29

一句话总结

本文提出了DeepGL，一种可扩展、内存高效的框架，用于在大型属性图中学习深度、分层且可解释的节点和边表征。通过迭代地利用学习到的关系函数组合基础特征（例如图基），DeepGL相较于最先进方法实现高达182倍的运行速度提升和6倍的内存使用减少，同时在节点分类和迁移学习等关键任务上将准确率提升20%以上。

ABSTRACT

This paper presents a general graph representation learning framework called DeepGL for learning deep node and edge representations from large (attributed) graphs. In particular, DeepGL begins by deriving a set of base features (e.g., graphlet features) and automatically learns a multi-layered hierarchical graph representation where each successive layer leverages the output from the previous layer to learn features of a higher-order. Contrary to previous work, DeepGL learns relational functions (each representing a feature) that generalize across-networks and therefore useful for graph-based transfer learning tasks. Moreover, DeepGL naturally supports attributed graphs, learns interpretable features, and is space-efficient (by learning sparse feature vectors). In addition, DeepGL is expressive, flexible with many interchangeable components, efficient with a time complexity of $\mathcal{O}(|E|)$, and scalable for large networks via an efficient parallel implementation. Compared with the state-of-the-art method, DeepGL is (1) effective for across-network transfer learning tasks and attributed graph representation learning, (2) space-efficient requiring up to 6x less memory, (3) fast with up to 182x speedup in runtime performance, and (4) accurate with an average improvement of 20% or more on many learning tasks.

研究动机与目标

为解决现有图表征学习方法的局限性，这些方法生成密集、不可泛化且不可解释的特征。
通过学习可在不同图之间泛化的关联函数，实现有效的跨网络迁移学习。
支持属性图，并为大规模网络学习空间高效的稀疏特征向量。
通过线性时间复杂度和并行实现，实现高效率和可扩展性。
提供可解释的、分层的表征，以捕捉高阶子图结构。

提出的方法

DeepGL从图结构、属性或两者结合中提取基础特征，例如图基特征。
通过一组学习到的关系特征算子，以多层分层方式从低阶特征组合生成高阶特征。
每一层均基于前一层，使用组合关系函数，仅保留能提供新颖、非冗余信息的特征。
框架采用对数分箱和稀疏向量编码以减少内存占用，每个特征值仅需1–2字节。
采用并行的线性时间算法，时间复杂度为O(|E|)，可扩展至包含数百万个节点的图。
该方法支持节点和边表征学习，且对不同图类型和任务具有灵活的可插拔组件。

实验结果

研究问题

RQ1深度图表征学习框架能否在不同网络之间泛化关联函数，以实现有效的迁移学习？
RQ2如何在捕捉高阶结构模式的同时，使图表征既节省空间又可解释？
RQ3与密集的实值嵌入相比，学习稀疏的分层特征在运行时间和内存效率上能带来多大的性能提升？
RQ4此类框架在包含数百万个节点的大规模属性图上能实现多大程度的可扩展性？
RQ5特征的分层组合如何提升下游机器学习任务的准确性？

主要发现

与最先进方法（如node2vec）相比，DeepGL将内存使用量最多减少6倍，节点特征密度为0.162–0.334，边特征密度为0.164–0.318。
在1000万节点的Erdös-Rényi图上，DeepGL的运行时间相比node2vec实现182倍的加速，仅用15分钟完成，而node2vec需1.8天。
DeepGL的节点表征显著比密集嵌入更稀疏，1000万个节点的128维特征仅需0.768 GB内存，而node2vec需10.2 GB。
DeepGL在多个任务（包括节点分类和链接预测）中，平均准确率提升20%或以上。
该框架展现出强大的并行可扩展性，性能随核心数量线性提升，尤其在边表征学习中表现突出。
学习到的特征具有可解释性，每个特征均对应一组可追踪和解释的关系函数组合，适用于不同图之间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。