QUICK REVIEW

[논문 리뷰] Learning on Large-scale Text-attributed Graphs via Variational Inference

Jianan Zhao, Meng Qu|arXiv (Cornell University)|2022. 10. 26.

Topic Modeling인용 수 25

한 줄 요약

GLEM은 대규모 텍스트 특성 그래프에서 노드 분류를 위해 언어 모델(LM)과 그래프 신경망(GNN)을 교대 학습시키는 변분 EM 프레임워크를 도입하여 확장 가능하고 최첨단의 결과를 달성합니다.

ABSTRACT

This paper studies learning on text-attributed graphs (TAGs), where each node is associated with a text description. An ideal solution for such a problem would be integrating both the text and graph structure information with large language models and graph neural networks (GNNs). However, the problem becomes very challenging when graphs are large due to the high computational complexity brought by training large language models and GNNs together. In this paper, we propose an efficient and effective solution to learning on large text-attributed graphs by fusing graph structure and language learning with a variational Expectation-Maximization (EM) framework, called GLEM. Instead of simultaneously training large language models and GNNs on big graphs, GLEM proposes to alternatively update the two modules in the E-step and M-step. Such a procedure allows training the two modules separately while simultaneously allowing the two modules to interact and mutually enhance each other. Extensive experiments on multiple data sets demonstrate the efficiency and effectiveness of the proposed approach.

연구 동기 및 목표

텍스트-의미론과 그래프 구조를 통합하여 TAGs(Text-attributed graphs)에서 확장 가능한 학습을 고무한다.
성능 저하 없이 확장성을 개선하기 위해 LM과 GNN을 교대로 학습하도록 GLEM을 제안한다.
대형 TAG 벤치마크에서 GLEM 기반 LM 및 GNN 모듈이 강력한 성과를 달성함을 입증한다.
대형 언어 모델(예: DeBERTa-large)과 구조 없는 inductive 설정에서의 확장성을 보여준다.

제안 방법

ELBO를 통해 관찰된 레이블의 로그 우도(log-likelihood)를 최대화하기 위해 유사 우도 변분 프레임워크를 채택한다.
q(yU|sU)에 대해 텍스트 기반 LM과 p(y n|sV,A,yV\{n})에 대해 GNN으로 변분 분포를 구체화하여 로컬 텍스트와 글로벌 구조를 포착한다.
텍스트로부터 노드-레이블 분포를 모델링하기 위해 평균장 인수분해 q(yU|sU)=∏n∈U q(y n|s n)를 사용한다.
E단계에서 GNN을 고정하고 LM을 학습시켜 GNN이 예측한 의사 레이블을 모방하고 라벨이 있는 노드를 활용한다( wake-sleep 목표와 함께 ).
M단계에서 LM을 고정하고 LM이 생성한 임베딩과 의사 레이블을 사용하여 GNN을 학습한다( LM을 입력으로 하는 의사 우도).
레이블이 없는 노드에 LM이 예측한 의사 레이블로 주석을 달면 대형 TAG에서 GNN 학습이 가능해진다.

실험 결과

연구 질문

RQ1변분 EM 프레임워크가 대형 텍스트 특성 그래프에서 LM과 GNN의 확장 가능한 융합을 가능하게 할 수 있는가?
RQ2로컬 텍스트와 글로벌 그래프 구조를 모두 활용하여 LM과 GNN의 교대 업데이트가 노드 분류를 개선하는가?
RQ3대형 TAG 벤치마크에서 고정된 LM/GNN 베이스라인 및 다른 융합 전략과 비교했을 때 GLEM의 성능은 어떤가?
RQ4GLEM이 대형 LM(예: DeBERTa-large)에 확장 가능하고 구조 없는 inductive 설정에서 효과적인가?

주요 결과

GLEM은 태그 벤치마크 ogbn-arxiv, ogbn-products, ogbn-papers100M 전반에서 순수 LM과 다수의 GNN 베이스라인을 상회하는 성과를 달성한다.
LM-정보 임베딩으로 메시지 패싱을 사용할 때 GLEM-GNN이 여러 ogb 벤치마크에서 새로운 최첨단 성능을 달성한다.
EM 기반 학습 패러다임은 확장성을 향상시켜 대형 LM(예: DeBERTa-large)의 사용을 가능하게 하며 매개변수 수를 경쟁력 있게 유지한다.
구조 없는(inductive) 설정에서 GLEM-LM과 GLEM-GNN은 텍스트 속성 및 의사 레이블을 활용하여 견고한 성능을 보여준다.
비교된 학습 패러다임은 정확도와 효율성 면에서 GLEM이 정적 LM 및 결합 학습 방식보다 우수하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.