[论文解读] RAG-GFM: Overcoming In-Memory Bottlenecks in Graph Foundation Models via Retrieval-Augmented Generation
RAG-GFM 通过双模态检索存储与跨视图预训练将图知识外部化,然后使用上下文检索增强实现高效的少样本适配的图基础模型。
Graph Foundation Models (GFMs) have emerged as a frontier in graph learning, which are expected to deliver transferable representations across diverse tasks. However, GFMs remain constrained by in-memory bottlenecks: they attempt to encode knowledge into model parameters, which limits semantic capacity, introduces heavy lossy compression with conflicts, and entangles graph representation with the knowledge in ways that hinder efficient adaptation, undermining scalability and interpretability. In this work,we propose RAG-GFM, a Retrieval-Augmented Generation aided Graph Foundation Model that offloads knowledge from parameters and complements parameterized learning. To externalize graph knowledge, we build a dual-modal unified retrieval module, where a semantic store from prefix-structured text and a structural store from centrality-based motif. To preserve heterogeneous information, we design a dual-view alignment objective that contrasts both modalities to capture both content and relational patterns. To enable efficient downstream adaptation, we perform in-context augmentation to enrich supporting instances with retrieved texts and motifs as contextual evidence. Extensive experiments on five benchmark graph datasets demonstrate that RAG-GFM consistently outperforms 13 state-of-the-art baselines in both cross-domain node and graph classification, achieving superior effectiveness and efficiency.
研究动机与目标
- 由于在存储丰富图知识的内存瓶颈,参数中心化的图基础模型存在局限性。
- 提出一个检索增强框架,将图的语义与结构知识外部化。
- 通过外部化证据和领域先验,实现高效的跨域预训练和少样本适应。
提出的方法
- 引入一个统一的双模态检索数据库,包含一个语义存储(节点文本嵌入)和一个结构存储(Walk-Spectrum 编码的基元)。
- 提出一个双视图对齐目标,在不崩溃的情况下学习互补的语义与结构表示。
- 使用领域令牌注入领域先验,实现领域感知的适应。
- 在少样本微调过程中应用上下文检索增强,通过检索文本和基元丰富支持实例。
- 实现领域门控融合,在检索阶段引导外部证据,并通过基于提示的自适应仅更新轻量级图提示,而非完整模型参数。
实验结果
研究问题
- RQ1RAG-GFM 在跨域和跨数据集的少样本节点与图分类任务中表现如何?
- RQ2RAG-GFM 的哪些组成部分对性能提升贡献最大?
- RQ3检索增强是否能在预训练和微调阶段提升图基础模型的效率和效果?
- RQ4RAG-GFM 如何在语义模态和结构模态的表示学习之间取得平衡?
- RQ5在实践中提出的方法在计算效率和可扩展性方面表现如何?
主要发现
- RAG-GFM 在五个基准图数据集的跨域少样本任务中,持续超越 13 个现有最优基线。
- 该模型在节点和图分类上均实现了卓越的效果与效率。
- 双存储检索模块与双视图对齐实现了对跨域知识的鲁棒 grounding。
- 上下文检索增强与领域门控提示使得在不进行完整参数更新的情况下实现高效的自适应。
- 广泛的实验展示了在多样领域中的有利跨域迁移性与可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。