[논문 리뷰] Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods
본 논문은 대규모 비동질 그래프 벤치마크와 간단하고 확장 가능한 모델인 LINKX를 소개하며, 이는 기준선보다 성능이 우수하고 간단한 미니배치에서도 효과적이다.
Many widely used datasets for graph machine learning tasks have generally been homophilous, where nodes with similar labels connect to each other. Recently, new Graph Neural Networks (GNNs) have been developed that move beyond the homophily regime; however, their evaluation has often been conducted on small graphs with limited application domains. We collect and introduce diverse non-homophilous datasets from a variety of application areas that have up to 384x more nodes and 1398x more edges than prior datasets. We further show that existing scalable graph learning and graph minibatching techniques lead to performance degradation on these non-homophilous datasets, thus highlighting the need for further work on scalable non-homophilous methods. To address these concerns, we introduce LINKX -- a strong simple method that admits straightforward minibatch training and inference. Extensive experimental results with representative simple methods and GNNs across our proposed datasets show that LINKX achieves state-of-the-art performance for learning on non-homophilous graphs. Our codes and data are available at https://github.com/CUAI/Non-Homophily-Large-Scale.
연구 동기 및 목표
- 확장 가능 그래프 학습 방법을 평가하기 위한 대규모의 다양하고 비동호모필릭 그래프 데이터셋의 부족에 동기를 부여하고 이를 해결한다.
- 대규모 그래프에서 비동호모필릭 설정에서 기존의 미니배치 및 확장 가능 방법이 성능이 떨어진다는 것을 보여준다.
- 인접 정보와 특성 정보를 결합하여 강한 성능을 달성하는 간단하고 확장 가능한 모델 LINKX를 제안한다.
- 제안된 데이터세트에서 LINKX가 다양한 기준선 및 GNN을 능가한다는 것을 광범위한 실험을 통해 입증한다.
제안 방법
- 이전 연구 대비 최대 384배 더 많은 노드와 1398배 더 많은 간선을 포함하는 다중 응용 분야에 걸친 다양한 대규모 비동호모필릭 데이터세트를 도입한다.
- 여러 데이터세트에 대한 노드 특징을 정의하고 무작위 그래프 널 모델로부터의 편차를 평가하기 위한 수정된 비동호모필리티 측정값 ˆh 를 제안한다.
- MLP로 인접 행렬 A와 노드 특징 X를 각각 임베딩하고, 임베딩을 연결(concatenate)한 뒤, 스킵 연결이 있는 선형 변환을 적용하고, 다시 MLP를 거쳐 레이블을 예측하는 LINKX를 제안한다.
- GNN의 그래프 특화 미니배치 복잡성을 피하면서 LINKX에 대한 미니배치 친화적인 학습 및 추론 체계를 제공한다.
- 새로운 데이터세트 전반에 걸쳐 MLP, LINK, SGC, C&S, 그리고 최신의 비동호모필리에 초점을 둔 GNN을 포함한 광범위한 기준선과 LINKX를 비교한다.
실험 결과
연구 질문
- RQ1대규모 비동호모필릭 그래프가 데이터세트 규모 및 기존 방법의 성능 측면에서 전통적인 동질성 벤치마크와 어떻게 다를까?
- RQ2현재의 그래프 미니배칭 및 확장 가능한 방법들이 비동호모필릭 그래프에 적용될 때 어떤 성능을 보일까?
- RQ3인접 정보와 특징 정보를 먼저 분리한 후 융합하는 간단한 모델이 비동호모필릭 설정에서 최첨단 성능을 달성할 수 있을까?
- RQ4대규모 비동호모필릭 그래프에서 확장 가능한 학습을 위해 간단한 i.i.d. 노드 미니배치 전략이 충분할까?
- RQ5제안된 벤치마크에서 LINKX가 광범위한 기준선과 비교했을 때 실증적 성능은 어떠한가?
주요 결과
- 저자들은 이전 데이터세트보다 훨씬 더 많은 노드와 간선을 가진 크고 다양한 비동호모필릭 그래프를 구성하여 확장 가능한 평가를 가능하게 한다.
- 그래프 미니배칭 기법(예: GraphSAINT)이 비동호모필릭 설정에서 성능을 크게 저하시키며, 특히 대형 그래프에서 그렇다.
- 동질성 가정에 기초한 확장 가능한 방법들(예: SGC, C&S)은 비동호모필릭 데이터에서 성능이 떨어지며, 비동호모필리에 맞춘 방법의 필요성을 강조한다.
- 인접 및 노드 특징을 각각 임베딩한 뒤 이를 결합하는 간단한 모델 LINKX가 제안된 비동호모필릭 벤치마크에서 최첨단 성능을 달성한다.
- LINKX는 간단한 i.i.d. 노드 미니배치를 지원하고 대형 그래프까지 확장 가능하며 많은 기준선 및 다른 비동호모필릭 방법들보다 우수한 성능을 보인다.
- 대형 그래프의 미니배치 실험에서 LINKX는 GNNs 및 GraphSAINT 기반 접근법을 포함한 대안들과 동등하거나 더 우수한 성능을 보이며, 계산 효율성도 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.