[논문 리뷰] Finding the Missing-half: Graph Complementary Learning for Homophily-prone and Heterophily-prone Graphs
GOAL은 Graph Complementary Learning을 도입하여 누락된 절반의 위상(homophily/heterophily)을 보강하고 두 가지 위상을 모두 활용하는 새로운 보완 그래프 컨볼루션을 학습하여 여덟 개의 실제 데이터셋에서 노드 분류를 우수하게 수행한다.
Real-world graphs generally have only one kind of tendency in their connections. These connections are either homophily-prone or heterophily-prone. While graphs with homophily-prone edges tend to connect nodes with the same class (i.e., intra-class nodes), heterophily-prone edges tend to build relationships between nodes with different classes (i.e., inter-class nodes). Existing GNNs only take the original graph during training. The problem with this approach is that it forgets to take into consideration the ``missing-half" structural information, that is, heterophily-prone topology for homophily-prone graphs and homophily-prone topology for heterophily-prone graphs. In our paper, we introduce Graph cOmplementAry Learning, namely GOAL, which consists of two components: graph complementation and complemented graph convolution. The first component finds the missing-half structural information for a given graph to complement it. The complemented graph has two sets of graphs including both homophily- and heterophily-prone topology. In the latter component, to handle complemented graphs, we design a new graph convolution from the perspective of optimisation. The experiment results show that GOAL consistently outperforms all baselines in eight real-world datasets.
연구 동기 및 목표
- 실제 그래프가 동질성과 이질성 중 하나에 편향되어 있을 때 누락된 절반의 토폴로지를 활용하는 것을 동기부여한다.
- 누락된 토폴로지를 발견하고 추가하는 두 단계의 그래프 보완 파이프라인을 제안한다.
- 두 토폴로지 타입을 모두 포함하는 보완 그래프에서 효과적으로 작동할 수 있는 그래프 컨볼루션을 개발한다.
- 누락된 절반의 토폴로지를 도입하면 다운스트림 노드 분류가 향상된다는 것을 입증한다.
- GOAL의 우수성을 실험적으로 확인하기 위해 여덟 개의 실제 데이터셋에 걸친 실증 검증을 제공한다.
제안 방법
- 그래프 분류와 토폴로지 보완을 통한 그래프 보상 보완(보완 그래프 구성) обучання를 이용한다.
- 분류는 Kolmogorov-Smirnov 통계치를 사용해 그래프가 동질성 편향인지 이질성 편향인지를 판단한다.
- 토폴로지 증강은 그래프 유형에 따라 각 노드를 K개의 이질성 편향 노드 또는 K개의 동질성 편향 노드에 연결한다.
- 보완 그래프 컨볼루션 CGC는 자기 기여(self), 동질( homo ), 이질( hetero ), 결합 기여를 제어하는 매개변수 alpha, beta, gamma, delta와 함께 동질성-이질성 정보를 결합한다.
- CGC는 최적화 목표 O_o(동질성), O_t(이질성), O_c(결합 토폴로지)를 포함하는 최적화로부터 유도된다.
- CGC를 각각의 토폴로지 라플라시안에 대한 이중 저역통과/고역통과 스펙트럴 필터링 효과로 해석한다.
실험 결과
연구 질문
- RQ1주어진 그래프에서 누락된 절반의 토폴로지를 어떻게 식별할 것인가?
- RQ2보완 그래프에서 동질성 및 이질성 연결에 모두 효과적으로 작동하는 컨볼루션을 어떻게 설계할 것인가?
- RQ3누락된 절반의 토폴로지를 도입하면 다양한 데이터셋에서 노드 분류 성능이 향상되는가?
주요 결과
| 데이터셋 | MLP | GCN | GAT | APPNP | GraphSage | ChebyNet | GPR-GNN | JKNET | GOAL | |
|---|---|---|---|---|---|---|---|---|---|---|
| Cora | 72.09 ± 0.32 | 87.50 ± 1.04 | 88.25 ± 1.22 | 88.36 ± 0.61 | 88.01 ± 1.29 | 87.49 ± 0.90 | 88.65 ± 0.75 | 86.99 ± 1.60 | 88.75 ± 0.87 | 88.75 ± 0.87 |
| Citeseer | ? | 75.11 ± 1.12 | 75.75 ± 1.23 | 76.03 ± 1.27 | 75.17 ± 1.35 | 75.50 ± 0.87 | 75.70 ± 0.81 | 75.38 ± 1.30 | 77.15 ± 0.95 | |
| Pubmed | 87.47 ± 0.14 | 87.20 ± 0.52 | 85.88 ± 0.38 | 86.21 ± 0.25 | 87.39 ± 0.84 | 89.05 ± 0.29 | 88.53 ± 0.30 | 88.64 ± 0.51 | 89.25 ± 0.55 | |
| Computer | 83.59 ± 0.89 | 83.55 ± 0.38 | 85.36 ± 0.50 | 88.32 ± 0.36 | 88.54 ± 0.69 | 89.77 ± 0.36 | 87.63 ± 0.48 | 86.97 ± 0.56 | 91.33 ± 0.38 | |
| Photo | 90.49 ± 0.20 | 89.30 ± 0.82 | 90.81 ± 0.22 | 94.44 ± 0.36 | 94.23 ± 0.62 | 95.02 ± 0.41 | 94.60 ± 0.30 | 92.68 ± 0.58 | 95.60 ± 0.44 | |
| Chameleon | 46.55 ± 0.42 | 62.72 ± 2.09 | 62.19 ± 3.78 | 50.88 ± 1.18 | 58.82 ± 2.29 | 59.98 ± 1.54 | 67.96 ± 2.55 | 64.63 ± 3.08 | 71.65 ± 1.66 | |
| Squirrel | 30.67 ± 0.52 | 47.26 ± 0.34 | 51.80 ± 1.04 | 33.58 ± 1.00 | 41.19 ± 0.75 | 40.18 ± 0.55 | 49.52 ± 5.00 | 44.91 ± 1.94 | 60.53 ± 1.60 | |
| Actor | 28.75 ± 0.88 | 29.98 ± 1.18 | 28.17 ± 1.19 | 29.82 ± 0.82 | 31.76 ± 0.73 | 35.85 ± 1.05 | 30.78 ± 0.61 | 28.48 ± 1.25 | 36.46 ± 1.02 |
- GOAL은 여덟 개의 실제 데이터셋에서 노드 분류를 위한 모든 벤치마크 대비 일관되게 더 높은 성능을 보인다.
- 이질성 편향 데이터셋에서 강력한 제거 실험(학습된 동질 토폴로지만 있는 GOAL)으로도 최첨단 결과를 달성한다.
- 전 체계 GOAL 모델은 보완 그래프와 CGC를 통해 두 토폴로지 타입을 활용한 이득으로 상당한 성능 향상을 보여준다.
- 논문은 Cora, Citeseer, Pubmed, Computer, Photo, Chameleon, Squirrel, Actor를 포함한 데이터셋에 걸친 정량적 개선을 제시한다.
- 아블레이션 연구를 통해 alpha, beta, gamma, delta의 구성요소가 성능에 미치는 중요성을 확인한다.
- 발견된 누락된 절반 토폴로지는 여덟 개 데이터셋에 걸친 동질성 비율 지표로 평가되며, 질적 유용성을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.