[论文解读] Structure-free Graph Condensation: From Large-scale Graphs to Condensed Graph-free Data
SFGC 通过在节点属性中编码拓扑并结合长期训练轨迹元匹配,以及基于闭式 GNTK 的质量分数来筛选最佳压缩数据,将大图浓缩为小的无图数据集。
Graph condensation, which reduces the size of a large-scale graph by synthesizing a small-scale condensed graph as its substitution, has immediate benefits for various graph learning tasks. However, existing graph condensation methods rely on the joint optimization of nodes and structures in the condensed graph, and overlook critical issues in effectiveness and generalization ability. In this paper, we advocate a new Structure-Free Graph Condensation paradigm, named SFGC, to distill a large-scale graph into a small-scale graph node set without explicit graph structures, i.e., graph-free data. Our idea is to implicitly encode topology structure information into the node attributes in the synthesized graph-free data, whose topology is reduced to an identity matrix. Specifically, SFGC contains two collaborative components: (1) a training trajectory meta-matching scheme for effectively synthesizing small-scale graph-free data; (2) a graph neural feature score metric for dynamically evaluating the quality of the condensed data. Through training trajectory meta-matching, SFGC aligns the long-term GNN learning behaviors between the large-scale graph and the condensed small-scale graph-free data, ensuring comprehensive and compact transfer of informative knowledge to the graph-free data. Afterward, the underlying condensed graph-free data would be dynamically evaluated with the graph neural feature score, which is a closed-form metric for ensuring the excellent expressiveness of the condensed graph-free data. Extensive experiments verify the superiority of SFGC across different condensation ratios.
研究动机与目标
- 提出一种结构无关的图凝缩范式,以解决传统图凝缩的局限性。
- 通过将拓扑嵌入到节点属性中,将大规模图凝缩为小型无图数据。
- 通过对 GNN 学习行为的长期模仿实现稳健的知识迁移。
- 提供一个闭式、基于 GNTK 的度量,用于动态评估并选择高质量的凝缩数据。
提出的方法
- 引入 SFGC,在凝缩数据中使用恒等拓扑,以避免学习新的图结构。
- 通过训练轨迹元匹配来对齐大图与凝缩数据之间的长期 GNN 学习行为。
- 在大图上训练一组专家级的 GNN,以通过参数轨迹提供离线指导。
- 使用基于 GNTK 的图神经特征分数来评估凝缩数据,无需迭代的 GNN 训练。
- 选择具有最小 GNF 分数的凝缩无图数据,作为大图的最佳替代。
实验结果
研究问题
- RQ1一个结构无关(无图)的凝缩数据集是否能在很大程度上模拟在大图上训练的 GNN 的学习动态?
- RQ2长期轨迹元匹配是否在产生高质量凝缩数据方面优于短期梯度匹配?
- RQ3一个闭式的基于 GNTK 的度量是否能够在无需迭代模型训练的情况下可靠地引导最佳凝缩数据的选择?
- RQ4在不同数据集和凝缩比下,凝缩的无图表示有多么表达力和泛化性?
主要发现
- SFGC 在15个报道案例中实现了最先进或接近最先进的节点分类准确率(五个数据集、每个数据集三个凝缩比)。
- 长期训练轨迹匹配优于先前凝缩方法使用的短期梯度匹配,提升了凝缩数据的表达能力。
- 基于 GNTK 的图神经特征分数提供了闭式评估,指导在无需迭代 GNN 训练的情况下选择高质量的凝缩数据。
- 在各种凝缩比下,凝缩的无图数据通常可达到或超过结构感知凝缩基线(如 GCOND、GCOND-X)的性能。
- 该方法在传递式(Cora、Citeseer、Ogbn-arxiv)和归纳式(Flickr、Reddit)基准测试中均显示出显著的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。