[논문 리뷰] Large Language Models on Graphs: A Comprehensive Survey
대규모 언어 모델(LLMs)을 그래프 데이터에 적용하는 방법에 대한 체계적 조사로, 그래프 시나리오와 LLM 역할을 분류하고, 기술, 응용, 데이터셋 및 향후 방향을 개략적으로 제시한다.
Large language models (LLMs), such as GPT4 and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/decoding ability and newly found emergent capability (e.g., reasoning). While LLMs are mainly designed to process pure texts, there are many real-world scenarios where text data is associated with rich structure information in the form of graphs (e.g., academic networks, and e-commerce networks) or scenarios where graph data is paired with rich textual information (e.g., molecules with descriptions). Besides, although LLMs have shown their pure text-based reasoning ability, it is underexplored whether such ability can be generalized to graphs (i.e., graph-based reasoning). In this paper, we provide a systematic review of scenarios and techniques related to large language models on graphs. We first summarize potential scenarios of adopting LLMs on graphs into three categories, namely pure graphs, text-attributed graphs, and text-paired graphs. We then discuss detailed techniques for utilizing LLMs on graphs, including LLM as Predictor, LLM as Encoder, and LLM as Aligner, and compare the advantages and disadvantages of different schools of models. Furthermore, we discuss the real-world applications of such methods and summarize open-source codes and benchmark datasets. Finally, we conclude with potential future research directions in this fast-growing field. The related source can be found at https://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs.
연구 동기 및 목표
- graph 시나리오를 LLM 응용분야에 따라 순수 그래프, 텍스트 속성 그래프, 텍스트 페어 그래프로 분류한다.
- LLM을 그래프에 적용하는 기법을 체계적으로 검토하고, LLM as Predictor, Encoder, 및 Aligner의 관점에서 분류한다.
- 훈련/추론 프레임워크, 데이터셋, 오픈 소스 코드, 그리고 실제 세계의 응용을 요약한다.
- 이 급속히 성장하는 분야의 한계점, 도전 과제, 그리고 여섯 가지의 향후 연구 방향을 논의한다.
제안 방법
- LLMs를 적용할 수 있는 그래프 시나리오를 분류한다: 순수 그래프, 텍스트 속성 그래프, 텍스트 페어 그래프.
- LLM-on-그래프 기법을 역할별로 분류한다: LLM as Predictor, LLM as Encoder, 및 LLM as Aligner, 입력 형식과 학습 체계에 대한 하위 범주를 포함.
- 대표 모델의 상세한 예시를 제시하고 모델 학파 간의 장단점을 비교한다.
- 오픈 소스 코드베이스, 벤치마크 데이터셋, 그리고 실제 응용 사례를 요약한다.
- 그래프에서의 LLM를 위한 엔드-투-엔드 훈련 및 추론 프레임워크를 개-outline한다.
실험 결과
연구 질문
- RQ1LLMs를 효과적으로 적용할 수 있는 주요 그래프 시나리오는 무엇인가(순수 그래프, 텍스트 속성 그래프, 텍스트 페어 그래프)?
- RQ2LLMs가 그래프 작업에서 어떤 역할을 할 수 있으며(Predictor, Encoder, Aligner), 이러한 역할이 GNN과 어떻게 상호작용하는가?
- RQ3다양한 시나리오에서 그래프 데이터에 LLM을 적용하기 위한 주요 기법과 실제 고려사항은 무엇인가?
- RQ4현재 존재하는 데이터셋, 코드베이스, 응용은 무엇이며, 가장 유망한 향후 방향은 무엇인가?
주요 결과
- 그래프에서의 LLM은 그래프 시나리오와 LLM의 역할(Predictor, Encoder, Aligner)으로 분류될 수 있다.
- 그래프 구조와 텍스트를 통합하기 위한 다양한 기법이 존재하며, Graph as Sequence, Graph-Empowered LLMs, Graph-Aware Finetuning, 및 다양한 정합(Alignment) 전략이 포함된다.
- 데이터셋, 코드베이스, 도메인 특화 작업에 이르는 다양한 실제 응용과 오픈 소스 자원이 존재한다.
- 이 조사에서는 이 빠르게 성장하는 분야의 향후 연구를 이끌 기본 원리와 여섯 가지 잠재 방향을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.