[논문 리뷰] Watch Your Step: Learning Node Embeddings via Graph Attention
요약: 이 논문은 그래프 임베딩을 위한 임의 워크 기반 시점 분포를 학습 가능한 컨텍스트 분포로 학습시키기 위해 Graph Attention을 도입하고, 주의 파라미터를 임베딩과 함께 엔드투엔드 학습시켜 최첨단의 링크 예측 성능을 달성한다.
Graph embedding methods represent nodes in a continuous vector space, preserving information from the graph (e.g. by sampling random walks). There are many hyper-parameters to these methods (such as random walk length) which have to be manually tuned for every graph. In this paper, we replace random walk hyper-parameters with trainable parameters that we automatically learn via backpropagation. In particular, we learn a novel attention model on the power series of the transition matrix, which guides the random walk to optimize an upstream objective. Unlike previous approaches to attention models, the method that we propose utilizes attention parameters exclusively on the data (e.g. on the random walk), and not used by the model for inference. We experiment on link prediction tasks, as we aim to produce embeddings that best-preserve the graph structure, generalizing to unseen information. We improve state-of-the-art on a comprehensive suite of real world datasets including social, collaboration, and biological networks. Adding attention to random walks can reduce the error by 20% to 45% on datasets we attempted. Further, our learned attention parameters are different for every graph, and our automatically-found values agree with the optimal choice of hyper-parameter if we manually tune existing methods.
연구 동기 및 목표
- 그래프 임베딩에서 고정 하이퍼파라미터를 역전파로 학습되는 파라미터로 대체하려는 동기를 제시한다.
- 그래프 전이 행렬의 거듭제곱 급수에 주의 메커니즘을 도입해 랜덤 워크를 유도한다.
- 동시 발생 통계의 닫힌 형태의 기댓값을 도출해 엔드-투-엔드 학습을 가능하게 한다.
- 다양한 실제 그래프에서 링크 예측 성능과 견고성을 개선했음을 보여준다.
제안 방법
- 임베딩을 g(Y) = L × R^T로 나타내고 Y = [L|R]로 구성한다.
- f(A)를 무작위 워크가 생성하는 동시 발생 행렬 D의 기대값 E[D]로 설정한다.
- 걸음 길이에 대한 컨텍스트 분포 Q를 도입하고 E[D]를 E[D;Q] = P^(0) ∑k Q_k (T^k)로 표현한다. 여기서 T는 그래프의 전이 행렬이다.
- 그래프 Attention Model을 통해 Q를 파라미터화하여 Q = softmax(q)로 두고 q를 임베딩과 함께 학습한다.
- 무한 개의 거듭제곱에 대한 소프트맥스 방식의 무한급수 주의로 확장하여 E[D^{softmax[∞]}; q] = P^(0) lim_{C→∞} ∑k softmax(q)_k (T^k)로 표현한다.
- 주의 파라미터를 학습하고 추론 시 파라미터를 분리하여 NLGL 목표를 최대화/최소화하는 방식으로 학습한다.
실험 결과
연구 질문
- RQ1주의 파라미터가 랜덤 워크 기반 임베딩에 대해 그래프 특성화 컨텍스트 분포를 학습할 수 있는가?
- RQ2학습된 컨텍스트 분포가 고정 컨텍스트 창의 그리드 탐색 결과와 비교해 링크 예측 성능에 어떤 차이가 있는가?
- RQ3제안된 그래프 어텐션 메커니즘이 소셜, 협업, 생물학 등 다양한 그래프 유형에 일반화되며 하이퍼파라미터 선택에 대해 견고한가?
주요 결과
| 데이터 세트 | dim | 인접 행렬 | D by Simulation | Graph Attention | 오류 감소 | Eigen Maps | SVD | DNGR | node2vec C=2 | node2vec C=5 | AsymProj | Ours (NLGL) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| wiki-vote | 64 | 61.3 | 86.0 | 59.8 | 64.4 | 63.6 | 91.7 | 93.8±0.13 | 25.2% | 25.2% | ||
| ego-Facebook | 64 | 96.4 | 96.7 | 98.1 | 99.1 | 99.0 | 97.4 | 99.4±0.10 | 33.3% | 33.3% | ||
| ego-Facebook | 128 | 95.4 | 94.5 | 98.4 | 99.3 | 99.2 | 97.3 | 99.5±0.03 | 28.6% | 28.6% | ||
| ca-AstroPh | 64 | 82.4 | 91.1 | 93.9 | 97.4 | 96.9 | 95.7 | 97.9±0.21 | 19.2% | 19.2% | ||
| ca-AstroPh | 128 | 82.9 | 92.4 | 96.8 | 97.7 | 97.5 | 95.7 | 98.1±0.49 | 24.0% | 24.0% | ||
| ca-HepTh | 64 | 80.2 | 79.3 | 86.8 | 90.6 | 91.8 | 90.3 | 93.6±0.06 | 22.0% | 22.0% | ||
| ca-HepTh | 128 | 81.2 | 78.0 | 89.7 | 90.1 | 92.0 | 90.3 | 93.9±0.05 | 23.8% | 23.8% | ||
| PPI | 64 | 70.7 | 75.4 | 76.7 | 79.7 | 70.6 | 82.4 | 89.8±1.05 | 43.5% | 43.5% | ||
| PPI | 128 | 73.7 | 71.2 | 76.9 | 81.8 | 74.4 | 83.9 | 91.0±0.28 | 44.2% | 44.2% |
- Graph Attention 모델은 고정 컨텍스트 기반 기법에 비해 실제 데이터 세트 다수에서 링크 예측 성능을 크게 향상시켜 오차를 최대 20%–40%까지 감소시켰다.
- 학습된 주의 가중치 Q는 데이터셋에 따라 다르게 나타나며 종종 고정 컨텍스트 윈도우에 대한 그리드 탐색 결과와 정렬되는데, 이는 각 그래프에 대해 적절한 단기/장기 의존성을 모델이 스스로 찾아냄을 시사한다.
- 하이퍼파라미터 선택(C 및 정규화 β)에 대해 견고하게 작동하며 다양한 설정에서 성능을 유지한다.
- 노드 분류 작업(Cora, Citeseer)에서 비지도 임베딩이 노드 특성 없이도 경쟁력 있는 기저 모형들보다 더 나은 분리를 보인다.
- 주의 파라미터는 학습 시에만 학습되며 추론 시에는 사용되지 않아 추론 시 복잡도 증가 없이 엔드투엔드 최적화를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.