[论文解读] Subgraph Federated Learning with Missing Neighbor Generation
这篇论文提出了 FedSage 和 FedSage+,用于子图联邦学习,在分布式子图之间实现全局图知识转移,并通过生成的缺失邻居模块解决跨子图缺失邻居的问题。
Graphs have been widely used in data mining and machine learning due to their unique representation of real-world objects and their interactions. As graphs are getting bigger and bigger nowadays, it is common to see their subgraphs separately collected and stored in multiple local systems. Therefore, it is natural to consider the subgraph federated learning setting, where each local system holds a small subgraph that may be biased from the distribution of the whole graph. Hence, the subgraph federated learning aims to collaboratively train a powerful and generalizable graph mining model without directly sharing their graph data. In this work, towards the novel yet realistic setting of subgraph federated learning, we propose two major techniques: (1) FedSage, which trains a GraphSage model based on FedAvg to integrate node features, link structures, and task labels on multiple local subgraphs; (2) FedSage+, which trains a missing neighbor generator along FedSage to deal with missing links across local subgraphs. Empirical results on four real-world graph datasets with synthesized subgraph federated learning settings demonstrate the effectiveness and efficiency of our proposed techniques. At the same time, consistent theoretical implications are made towards their generalization ability on the global graphs.
研究动机与目标
- 激励从多个偏差子图中学习一个全局适用的图分类器,而不分享原始数据。
- 提出 FedSage,通过 FedAvg 在本地子图之间聚合 GraphSage 模型。
- 通过生成缺失邻居,用 FedSage+ 解决跨子图的缺失连边。
- 在真实世界数据集上,在不同数据所有者设置下展示有效性与效率。
- 在联邦子图学习的 GNTK 框架中提供关于泛化的理论见解。
提出的方法
- 采用 FedAvg 在 M 个本地子图上训练一个共享的 GraphSage 分类器(FedSage)。
- 定义基于自我图的节点分类损失,并通过 K 层 GraphSage 传播表征。
- 引入 NeighGen,一个两模块生成器(编码器 H^e 与生成器 H^g),用于生成缺失的跨子图邻居。
- 通过对受损本地子图进行图修复来训练 NeighGen,并与 GraphSage(LocSage+)联合优化。
- 通过交换与跨子图邻居重构相关的梯度来联邦化 NeighGen,以在不共享原始数据的前提下提升生成邻居的多样性。
- 为 LocSage+ 提供联合损失 L = L^n + λ^c L^c,以及一个跨子图受限的 FL 方案,以利用来自其他所有者的梯度信号在本地更新 NeighGen。
实验结果
研究问题
- RQ1如何从分布式、偏置的子图中学习一个全局适用的图分类器,而不共享数据?
- RQ2在跨子图缺失连边的情况下,使用 GraphSage 的 FedAvg 能否产生鲁棒的全局模型?
- RQ3生成缺失邻居(NeighGen)是否提升子图联邦学习的性能?
- RQ4如何在联邦场景中训练 NeighGen 以捕获跨子图信息,同时不暴露私有数据?
- RQ5在 GNTK 框架下,子图联邦学习的泛化含义是什么?
主要发现
- FedSage 与 FedSage+ 在四个真实世界数据集上持续超越本地训练的分类器。
- FedSage+ 通过缓解跨子图缺失邻居问题进一步提升了相对于 FedSage 的性能。
- FedSage+ 对跨子图信息丢失表现出鲁棒性,尤其是在 Citeseer 等较稀疏的图上。
- 不进行协作的本地训练(LocSage/LocSage+)不及联邦方法,说明在此情景下 FL 的价值。
- NeighGen 和 GraphSage 的联合训练带来更快的收敛和有竞争力的精度,且训练时间开销可控。
- 超参数研究表明,α 取约 1 且缺失邻居率 h 适中能提升性能,而极端取值会劣化学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。