[论文解读] Large Language Models on Graphs: A Comprehensive Survey
对大语言模型(LLMs)如何应用于图数据的系统性综述,,将图场景与 LLM 角色进行分类,并概述技术、应用、数据集及未来方向。
Large language models (LLMs), such as GPT4 and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/decoding ability and newly found emergent capability (e.g., reasoning). While LLMs are mainly designed to process pure texts, there are many real-world scenarios where text data is associated with rich structure information in the form of graphs (e.g., academic networks, and e-commerce networks) or scenarios where graph data is paired with rich textual information (e.g., molecules with descriptions). Besides, although LLMs have shown their pure text-based reasoning ability, it is underexplored whether such ability can be generalized to graphs (i.e., graph-based reasoning). In this paper, we provide a systematic review of scenarios and techniques related to large language models on graphs. We first summarize potential scenarios of adopting LLMs on graphs into three categories, namely pure graphs, text-attributed graphs, and text-paired graphs. We then discuss detailed techniques for utilizing LLMs on graphs, including LLM as Predictor, LLM as Encoder, and LLM as Aligner, and compare the advantages and disadvantages of different schools of models. Furthermore, we discuss the real-world applications of such methods and summarize open-source codes and benchmark datasets. Finally, we conclude with potential future research directions in this fast-growing field. The related source can be found at https://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs.
研究动机与目标
- 将图场景按纯图、文本属性图、文本配对图对 LLM 应用进行分类。
- 系统性回顾在图上使用 LLM 的技术,包括 LLM 作为 Predictor、Encoder、Aligner 的应用。
- 总结训练/推理框架、数据集、开源代码与真实世界应用。
- 讨论在这一快速发展的领域中的局限性、挑战以及六个未来研究方向。
提出的方法
- 对 LLM 可应用的图场景进行分类:纯图、文本属性图、文本配对图。
- 按角色对 LLM-on-graph 技术进行分类:LLM 作为 Predictor、LLM 作为 Encoder、LLM 作为 Aligner,并给出输入格式与训练范式的子类别。
- 提供具有代表性的模型的详细示意,并比较不同模型流派的优劣。
- 总结开源代码库、基准数据集和真实世界应用。
- 勾勒在图上的端到端训练与推理框架。
实验结果
研究问题
- RQ1在图的哪些主要场景下 LLMs 可以有效应用(纯图、文本属性图、文本配对图)?
- RQ2LLMs 在图任务中能扮演哪些角色(预测器、编码器、对齐器),这些角色如何与 GNNs 互动?
- RQ3在不同场景下将 LLM 应用于图数据的关键技术与实际考虑因素有哪些?
- RQ4当前存在哪些数据集、代码库与应用,哪些未来方向最有前景?
主要发现
- 可以按图场景和 LLM 角色(预测器、编码器、对齐器)来对图上的 LLMs 进行分类。
- 存在将图结构与文本结合的广泛技术,包括 Graph as Sequence、Graph-Empowered LLMs、Graph-Aware Finetuning,以及各种对齐策略。
- 存在覆盖数据集、代码库和领域特定任务的丰富真实世界应用与开源资源。
- 本综述提出基本原理,并指出六个未来方向以指引这一快速增长领域的后续研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。