QUICK REVIEW

[논문 리뷰] Is Homophily a Necessity for Graph Neural Networks?

Yao Ma, Xiaorui Liu|arXiv (Cornell University)|2021. 06. 11.

Advanced Graph Neural Networks참고 문헌 48인용 수 58

한 줄 요약

이 논문은 GCN이 특정 조건에서 이질적 그래프에서 잘 작동할 수 있으며, 강한 SSNC 성능에 필요한 동질성(homophily)이 언제 필요한지 혹은 필요하지 않은지 분석한다.

ABSTRACT

Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption ("like attracts like"), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.

연구 동기 및 목표

반지도 학습된 노드 분류에서 GCN 성능에서의 동질성의 역할을 조사한다.
이질성(heterophily) 그래프에서 GCN이 잘 작동할 수 있는 조건을 특징짓는다.
임베딩 동작 및 이웃 분포를 바탕으로 이론적 설명을 제공한다.
현실 세계 및 합성 이질성 그래프에서 GCN을 평가하고 이질성에 특화된 모델과 비교한다.

제안 방법

특징 및 이웃 분포에 대한 가정하에 GCN 임베딩을 이론적으로 분석한다.
GCN 스무딩 후 선형 분리 가능성을 연구하기 위해 Contextual Stochastic Block Model(CSBM)을 사용한다.
동일 레이블 임베딩이 수렴함을 보이는 경계(bound)를 도출하고 이웃 분포가 분리 가능성에 영향을 준다.
대상 간선 추가 및 제어된 노이즈를 통해 실증적으로 합성 이질성 그래프를 만들어 성능 경향을 연구한다.
표준 벤치마크에서 GCN을 MLP 및 이질성 중심 아키텍처와 비교한다.

실험 결과

연구 질문

RQ1표준 GCN이 어떤 이질성 조건에서 강한 SSNC 성능을 달성할 수 있는가?
RQ2노드 차수와 이웃 분포의 구별 가능성이 GCN 효과에 어떤 영향을 미치는가?
RQ3현실 이질적 그래프에서 관찰된 GCN 성능을 설명할 수 있는 어떤 설명이 있는가?
RQ4이웃 패턴에 대한 합성 교란이 GCN 대 특화 모델에 어떤 영향을 미치는가?

주요 결과

적절한 하이퍼파라미터 조정으로 일부 이질성 그래프에서 GCN이 이질성 맞춤 모델보다 더 잘 수행할 수 있다.
동일-레이블 노드의 이웃 패턴이 유사하게 분포되면 동일 레이블 노드의 GCN 임베딩이 비슷해져 SSNC를 잘 가능하게 한다.
이웃 분포가 구별 가능할 때 고차수 노드의 성능이 향상되며, 분포가 매우 유사하면 이익이 제한된다.
좋은 이질성과 나쁜 이질성이 모두 존재한다; 이질성만으로 GCN 성능 저하를 설명할 수 없다.
실제 벤치마크에서 GCN은 일부 이질성 그래프(예: Squirrel, Chameleon)에서 MLP보다 나은 성능을 보이고 다른 그래프에서는 더 나쁘다.
목표 이웃 분포에 따라 간선을 추가하면 V자 형태의 성능 경향을 만들어 토폴로지 의존성의 임계점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.