[논문 리뷰] Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec
본 논문은 DeepWalk, LINE, PTE, 및 node2vec가 그래프에서 도출된 행렬의 암시적 분해임을 보여주고, DeepWalk/라플라시안 기반 행렬을 명시적으로 분해하기 위한 NetMF를 제안하여 임베딩 성능을 향상시킨다는 것을 제시한다.
Since the invention of word2vec, the skip-gram model has significantly advanced the research of network embedding, such as the recent emergence of the DeepWalk, LINE, PTE, and node2vec approaches. In this work, we show that all of the aforementioned models with negative sampling can be unified into the matrix factorization framework with closed forms. Our analysis and proofs reveal that: (1) DeepWalk empirically produces a low-rank transformation of a network's normalized Laplacian matrix; (2) LINE, in theory, is a special case of DeepWalk when the size of vertices' context is set to one; (3) As an extension of LINE, PTE can be viewed as the joint factorization of multiple networks' Laplacians; (4) node2vec is factorizing a matrix related to the stationary distribution and transition probability tensor of a 2nd-order random walk. We further provide the theoretical connections between skip-gram based network embedding algorithms and the theory of graph Laplacian. Finally, we present the NetMF method as well as its approximation algorithm for computing network embedding. Our method offers significant improvements over DeepWalk and LINE for conventional network mining tasks. This work lays the theoretical foundation for skip-gram based network embedding methods, leading to a better understanding of latent network representation learning.
연구 동기 및 목표
- 인기 있는 스킵그램 기반 네트워크 임베딩 방법과 그래프 라플라시안 간의 이론적 연결을 명확히 한다.
- 각 방법이 암묵적으로 분해하는 닫힌 형식의 행렬들을 도출한다.
- DeepWalk/라플라시안에서 영감을 받은 행렬을 명시적으로 분해하기 위한 NetMF를 제안하고 성능을 평가한다.
- 표준 데이터셋에서 NetMF가 DeepWalk 및 LINE에 비해 실증적 이점을 보임을 입증한다.
제안 방법
- DeepWalk, LINE, PTE, 및 node2vec가 특정 네트워크 유도 행렬의 암시적 분해에 해당함을 보인다.
- LINE을 윈도우 크기 T = 1인 DeepWalk의 특수한 경우로 보인다.
- 여러 하위 네트워크에 걸친 공동 분해로 LINE 분석을 PTE로 확장한다.
- node2vec를 2차 차원의 무작소 보행으로 모델링하고 행렬과 유사한 분해 형식을 도출한다.
- SVD를 통해 DeepWalk 행렬(또는 그 로그)을 명시적으로 분해하기 위한 NetMF를 도입하고, 작은 윈도우와 큰 윈도우 크기에 대한 두 가지 실용적 방식으로 제시한다.
실험 결과
연구 질문
- RQ1DeepWalk, LINE, PTE, 및 node2vec 각각의 기초가 되는 정확한 행렬 형태는 무엇인가?
- RQ2이 방법들이 그래프 라플라시안 및 네트워크의 스펙트럴 특성과 이론적으로 어떻게 연결되는가?
- RQ3실제로 이 방법들과 동등하거나 그 이상을 달성하는 명시적 행렬 분해 방법(NetMF)을 설계할 수 있는가?
- RQ4실제 네트워크에서 명시적 분해(NetMF)가 암시적 샘플링 기반 방법에 비해 어떤 실증적 이점을 제공하는가?
주요 결과
| 알고리즘 | BlogCatalog Micro-F1 | BlogCatalog Macro-F1 | PPI Micro-F1 | PPI Macro-F1 | Wikipedia Micro-F1 | Wikipedia Macro-F1 | Flickr Micro-F1 | Flickr Macro-F1 |
|---|---|---|---|---|---|---|---|---|
| LINE (2nd) | 23.64 | 13.91 | 10.94 | 9.04 | 41.77 | 9.72 | 25.18 | 9.32 |
| NetMF (T = 1) | 33.04 | 14.86 | 16.01 | 12.10 | 49.90 | 9.25 | 23.87 | 6.44 |
| NetMF (T = 10) | 38.36 | 22.90 | 18.16 | 14.32 | 46.21 | 8.38 | 29.95 | 13.50 |
| DeepWalk | 29.32 | 18.38 | 12.05 | 10.29 | 36.08 | 8.38 | 26.21 | 12.43 |
- 네 가지 방법 모두 닫힌 형식의 행렬의 암시적 분해에 해당한다.
- LINE(2nd)는 컨텍스트 윈도우 T = 1일 때 DeepWalk의 특수한 경우이다.
- PTE는 여러 하위 네트워크에 걸친 공동 분해로 LINE을 확장한다.
- node2vec의 2차 순서 보행은 전이 텐서와 관련된 분해를 초래하지만 전체 행렬 형태는 복잡하다.
- NetMF는 DeepWalk/라플라시안 영감 행렬을 명시적으로 분해하며, 작은-T와 큰-T 변형을 갖는다.
- NetMF (T=1 및 T=10)는 BlogCatalog, PPI, Wikipedia, Flickr 등 여러 데이터셋에서 LINE 및 DeepWalk에 비해 상당한 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.