[논문 리뷰] Link Prediction Based on Graph Neural Networks
논문은 SEAL을 도입하며 로컬 엔클로징 서브그래프에서 GNN으로 링크 예측 휴리스틱을 학습하고, 하이오더 휴리스틱을 통합하는 감마 감소 이론을 뒷받침한다.
Link prediction is a key problem for network-structured data. Link prediction heuristics use some score functions, such as common neighbors and Katz index, to measure the likelihood of links. They have obtained wide practical uses due to their simplicity, interpretability, and for some of them, scalability. However, every heuristic has a strong assumption on when two nodes are likely to link, which limits their effectiveness on networks where these assumptions fail. In this regard, a more reasonable way should be learning a suitable heuristic from a given network instead of using predefined ones. By extracting a local subgraph around each target link, we aim to learn a function mapping the subgraph patterns to link existence, thus automatically learning a `heuristic' that suits the current network. In this paper, we study this heuristic learning paradigm for link prediction. First, we develop a novel $γ$-decaying heuristic theory. The theory unifies a wide range of heuristics in a single framework, and proves that all these heuristics can be well approximated from local subgraphs. Our results show that local subgraphs reserve rich information related to link existence. Second, based on the $γ$-decaying theory, we propose a new algorithm to learn heuristics from local subgraphs using a graph neural network (GNN). Its experimental results show unprecedented performance, working consistently well on a wide range of problems.
연구 동기 및 목표
- 메타 그래프 구조 기반의 링크 예측 일반 휴리스틱 학습 동기 부여 beyond predefined measures.
- 로컬 엔클로징 서브그래프가 하이오더 휴리스틱을 근사하기에 충분한 정보를 포함하는지 보이기.
- SEAL을 제안, 서브그래프, 노드 임베딩, 속성을 통합한 GNN 기반 프레임워크로 예측 성능 향상.
- gamma-decaying heuristics를 통한 이론적 정당화 제공 및 베이스라인 대비 실험적 우수성 시연
제안 방법
- 타깃 링크를 둘러싼 엔클로징 서브그래프를 정의하여 로컬 구조를 포착합니다.
- 오차가 기하급수적으로 감소하는 h-hop 서브그래프로부터 근사화를 보이는 gamma-decaying 휴리스틱 이론을 증명합니다.
- WLNM의 완전 연결 네트워크를 서브그래프로부터 학습하는 그래프 신경망(GNN)으로 대체합니다.
- 세 가지 노드 특징 구성요소를 도입합니다: 구조적 레이블, 노드 임베딩, 명시적 속성(DRNL 라벨링 및 임베딩 트릭을 통해).
- 임베딩 생성을 할 때 훈련 링크로부터 누출을 방지하기 위해 음수 주입을 사용합니다.
- SEAL을 양성/음성 예제에 대해 학습시켜 서브그래프의 그래프 수준 표현을 사용해 링크 존재 여부를 예측합니다.
실험 결과
연구 질문
- RQ1로컬 h-hop 엔클로징 서브그래프가 고차 효과를 포함하여 링크 존재 예측에 필요한 정보를 충분히 포착할 수 있는가?
- RQ2gamma-decaying 휴리스틱이 로컬 서브그래프로부터 일반적인 고차 링크 예측기를 근사하는 통합되고 증명 가능한 기초를 제공하는가?
- RQ3SEAL이 다양한 네트워크에서 전통적 휴리스틱, 잠재 특징 방법, 및 이전 감독 학습 서브그래프 접근법을 능가하는가?
- RQ4잠재/명시적 특징 및 노드 라벨링의 도입이 SEAL의 성능에 어떤 영향을 미치는가?
주요 결과
| 데이터 | CN | Jaccard | PA | AA | RA | Katz | PR | SR | ENS | WLK | WLNM | SEAL |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| USAir | 93.80 b1 1.22 | 89.79 b1 1.61 | 88.84 b1 1.45 | 95.06 b1 1.03 | 95.77 b1 0.92 | 92.88 b1 1.42 | 94.67 b1 1.08 | 78.89 b1 2.31 | 88.96 b1 1.44 | 96.63 b1 0.73 | 95.95 b1 1.10 | 96.62 b1 0.72 |
| NS | 94.42 b1 0.95 | 94.43 b1 0.93 | 68.65 b1 2.03 | 94.45 b1 0.93 | 94.45 b1 0.93 | 94.85 b1 1.10 | 94.89 b1 1.08 | 94.79 b1 1.08 | 97.64 b1 0.25 | 98.57 b1 0.51 | 98.61 b1 0.49 | 98.85 b1 0.47 |
| PB | 92.04 b1 0.35 | 87.41 b1 0.39 | 90.14 b1 0.45 | 92.36 b1 0.34 | 92.46 b1 0.37 | 92.92 b1 0.35 | 93.54 b1 0.41 | 77.08 b1 0.80 | 90.15 b1 0.45 | 93.83 b1 0.59 | 93.49 b1 0.47 | 94.72 b1 0.46 |
| Yeast | 89.37 b1 0.61 | 89.32 b1 0.60 | 82.20 b1 1.02 | 89.43 b1 0.62 | 89.45 b1 0.62 | 92.24 b1 0.61 | 92.76 b1 0.55 | 91.49 b1 0.57 | 82.36 b1 1.02 | 95.86 b1 0.54 | 95.62 b1 0.52 | 97.91 b1 0.52 |
| C.ele | 85.13 b1 1.61 | 80.19 b1 1.64 | 74.79 b1 2.04 | 86.95 b1 1.40 | 87.49 b1 1.41 | 86.34 b1 1.89 | 90.32 b1 1.49 | 77.07 b1 2.00 | 74.94 b1 2.04 | 89.72 b1 1.67 | 86.18 b1 1.72 | 90.30 b1 1.35 |
| Power | 58.80 b1 0.88 | 58.79 b1 0.88 | 44.33 b1 1.02 | 58.79 b1 0.88 | 58.79 b1 0.88 | 65.39 b1 1.59 | 66.00 b1 1.59 | 76.15 b1 1.06 | 79.52 b1 1.78 | 82.41 b1 3.43 | 84.76 b1 0.98 | 87.61 b1 1.57 |
| Router | 56.43 b1 0.52 | 56.40 b1 0.52 | 47.58 b1 1.47 | 56.43 b1 0.51 | 56.43 b1 0.51 | 38.62 b1 1.35 | 38.76 b1 1.39 | 37.40 b1 1.27 | 47.58 b1 1.48 | 87.42 b1 2.08 | 94.41 b1 0.88 | 96.38 b1 1.45 |
| E.coli | 93.71 b1 0.39 | 81.31 b1 0.61 | 91.82 b1 0.58 | 95.36 b1 0.34 | 95.95 b1 0.35 | 93.50 b1 0.44 | 95.57 b1 0.44 | 62.49 b1 1.43 | 91.89 b1 0.58 | 96.94 b1 0.29 | 97.21 b1 0.27 | 97.64 b1 0.22 |
- SEAL은 일반적으로 여러 데이터셋에서 미리 정의된 휴리스틱, WLK, WLNM보다 성능이 우수합니다.
- GNN을 이용한 SEAL은 학습 기반 방법 중에서 최첨단 결과를 달성하며 MF, SBM, N2V, LINE, SPC, VGAE와 같은 잠재 특징 접근법을 능가합니다.
- 구조적 특징과 함께 노드 임베딩을 포함하면 구조만 사용하는 baselines보다 유의한 이점을 얻습니다.
- gamma-decaying 이론은 많은 고차 휴리스틱이 작은 엔클로징 서브그래프에서 기하급수적으로 감소하는 오차로 근사될 수 있음을 시사합니다.
- DRNL 라벨링 및 음수 주입의 사용이 SEAL의 학습 및 일반화 성능을 향상시킵니다.
- 다양한 GNN 아키텍처와 임베딩을 사용할 때도 SEAL의 성능은 견고함을 유지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.