[論文レビュー] Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec
本論文は DeepWalk、LINE、PTE、および node2vec がグラフ由来の行列の暗黙的因子分解であることを示し、DeepWalk/ラプラシアンに基づく行列を明示的に因子分解する NetMF を導入して埋め込み性能を向上させる。
Since the invention of word2vec, the skip-gram model has significantly advanced the research of network embedding, such as the recent emergence of the DeepWalk, LINE, PTE, and node2vec approaches. In this work, we show that all of the aforementioned models with negative sampling can be unified into the matrix factorization framework with closed forms. Our analysis and proofs reveal that: (1) DeepWalk empirically produces a low-rank transformation of a network's normalized Laplacian matrix; (2) LINE, in theory, is a special case of DeepWalk when the size of vertices' context is set to one; (3) As an extension of LINE, PTE can be viewed as the joint factorization of multiple networks' Laplacians; (4) node2vec is factorizing a matrix related to the stationary distribution and transition probability tensor of a 2nd-order random walk. We further provide the theoretical connections between skip-gram based network embedding algorithms and the theory of graph Laplacian. Finally, we present the NetMF method as well as its approximation algorithm for computing network embedding. Our method offers significant improvements over DeepWalk and LINE for conventional network mining tasks. This work lays the theoretical foundation for skip-gram based network embedding methods, leading to a better understanding of latent network representation learning.
研究の動機と目的
- 人気のスキップグラムベースのネットワーク埋め込み手法とグラフラプラシアンとの理論的な関連を明確にする。
- 各手法が暗黙的に因子分解する閉形式の行列を導出する。
- NetMF を提案し、DeepWalk/ラプラシアン風の行列を明示的に因子分解して性能を評価する。
- 標準データセット上で DeepWalk および LINE に対する NetMF の実証的な向上を示す。
提案手法
- DeepWalk、LINE、PTE、および node2vec が特定のネットワーク由来の行列の暗黙的因子分解に対応することを証明する。
- window size T=1 の DeepWalk の特別な場合として LINE を示す。
- LINE の解析を拡張し、複数のサブネットワークを結合した因子分解として PTE を扱う。
- node2vec を 2 次のランダムウォークでモデル化し、その行列様の因子分解形を導出する。
- DeepWalk 行列(またはその対数)を SVD によって明示的に因子分解する NetMF を導入し、小さなウィンドウと大きなウィンドウのサイズに対する2つの実用的スキームを提供する。
実験結果
リサーチクエスチョン
- RQ1DeepWalk、LINE、PTE、および node2vec の背後にある正確な行列形式は何か?
- RQ2これらの手法は、グラフラプラシアンとネットワークのスペクトル特性と理論的にどのようにつながっているか?
- RQ3実践的にこれらの手法と同等かそれを上回る、明示的な行列因子分解法(NetMF)を設計できるか?
- RQ4実際のネットワーク上で、明示的な因子分解(NetMF)が暗黙的なサンプリングベースの手法に対してもたらす実証的な利点は何か?
主な発見
| アルゴリズム | BlogCatalog Micro-F1 | BlogCatalog Macro-F1 | PPI Micro-F1 | PPI Macro-F1 | Wikipedia Micro-F1 | Wikipedia Macro-F1 | Flickr Micro-F1 | Flickr Macro-F1 |
|---|---|---|---|---|---|---|---|---|
| LINE (2nd) | 23.64 | 13.91 | 10.94 | 9.04 | 41.77 | 9.72 | 25.18 | 9.32 |
| NetMF (T = 1) | 33.04 | 14.86 | 16.01 | 12.10 | 49.90 | 9.25 | 23.87 | 6.44 |
| NetMF (T = 10) | 38.36 | 22.90 | 18.16 | 14.32 | 46.21 | 8.38 | 29.95 | 13.50 |
| DeepWalk | 29.32 | 18.38 | 12.05 | 10.29 | 36.08 | 8.38 | 26.21 | 12.43 |
- 四つの手法はすべて、閉形式の行列の暗黙的因子分解に相当する。
- LINE(2nd) は、文脈ウィンドウ T = 1 のとき DeepWalk の特別なケースである。
- PTE は複数のサブネットワークを跨ぐ結合因子分解として LINE を拡張する。
- node2vec では 2 次のウォークが遷移テンソルに関連する因子分解を生み出すが、完全な行列形式は複雑である。
- NetMF は DeepWalk/ラプラシアン風の行列を明示的に因子分解し、小さい T と大きい T のバリアントを持つ。
- NetMF (T=1 および T=10) は、複数のデータセット(例: BlogCatalog, PPI, Wikipedia, Flickr)で LINE および DeepWalk より顕著な利得を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。