[論文レビュー] Deep Gaussian Embedding of Graphs: Unsupervised Inductive Learning via Ranking
Graph2Gauss は、教師なし・帰納的フレームワークにおいて、ノード埋め込みをガウス分布として学習し、マルチホップの近傍に対する個人化ランキング目的を用いて不確実性とネットワーク構造を捉えます。
Methods that learn representations of nodes in a graph play a critical role in network analysis since they enable many downstream learning tasks. We propose Graph2Gauss - an approach that can efficiently learn versatile node embeddings on large scale (attributed) graphs that show strong performance on tasks such as link prediction and node classification. Unlike most approaches that represent nodes as point vectors in a low-dimensional continuous space, we embed each node as a Gaussian distribution, allowing us to capture uncertainty about the representation. Furthermore, we propose an unsupervised method that handles inductive learning scenarios and is applicable to different types of graphs: plain/attributed, directed/undirected. By leveraging both the network structure and the associated node attributes, we are able to generalize to unseen nodes without additional training. To learn the embeddings we adopt a personalized ranking formulation w.r.t. the node distances that exploits the natural ordering of the nodes imposed by the network structure. Experiments on real world networks demonstrate the high performance of our approach, outperforming state-of-the-art network embedding methods on several different tasks. Additionally, we demonstrate the benefits of modeling uncertainty - by analyzing it we can estimate neighborhood diversity and detect the intrinsic latent dimensionality of a graph.
研究の動機と目的
- 不確実性と帰納的一般化を伴うグラフのノード表現学習を動機付ける。
- ノードの不確実性を捉えるためのガウス埋め込みを提案する。
- マルチホップの近傍に対する教師なしの個人化ランキング目的を開発する。
- 深層エンコーダを介してノード属性を埋め込みへ写像することで帰納学習を可能にする。
提案手法
- 各ノード i を低次元空間で Gaussian N(mu_i, Sigma_i) として表現する。
- ノード属性 x_i を mu_i および Sigma_i(対角成分)へ写像する深層エンコーダを用いる。
- 非対称なKL発散 delta(hi,hj)=DKL(Nj||Ni) を埋め込み間の距離尺度として定義する。
- 個人化ランキングを課す:1ホップのノードは2ホップよりも近いべきで、同様にKホップまで続く。
- 有効な三つ組に対してエネルギー E_ijk=DKL(N_jk||N_i) と E_ijl=DKL(N_jl||N_i) を比較する平方指数損失を最適化する。
- ノードアンカー付きの確率的サンプリングを採用し、勾配推定の偏りを防ぎ、スケーラブルな訓練を実現する。
- 属性情報を活用して未見ノードへの帰納一般化を可能にする。
- 属性が欠如している場合はワンホット表現を用いてプレーンなグラフをサポートする。
実験結果
リサーチクエスチョン
- RQ1属性付きグラフにおいてノードを分布として効果的に埋め込むことができ、不確実性を捉えられるか。
- RQ2マルチホップ近傍に対する個人化ランキングは教師なしのグラフ埋め込みを改善するか。
- RQ3エンコーダはノード属性のみを用いて unseen ノードに一般化できるか(帰納学習)。
- RQ4提案手法はリンク予測とノード分類で現状の最先端の教師なしグラフ埋め込みと比較してどうか。
- RQ5埋め込みの不確実性は近傍の多様性と固有次元性についてどんな洞察を提供するか。
主な発見
| 方法 | Cora-ML AUC | Cora-ML AP | Cora AUC | Cora AP | Citeseer AUC | Citeseer AP | DBLP AUC | DBLP AP | PubMed AUC | PubMed AP |
|---|---|---|---|---|---|---|---|---|---|---|
| Logistic Regression | 90.01 | 89.75 | 86.58 | 86.51 | 81.70 | 79.10 | 82.04 | 81.91 | 90.50 | 90.99 |
| node2vec(Grover & Leskovec, 2016) | 76.80 | 75.26 | 79.95 | 78.98 | 83.04 | 83.74 | 95.42 | 95.33 | 95.42 | 95.33 |
| TADW(Yang et al., 2015) | 81.26 | 81.34 | 76.56 | 78.06 | 70.14 | 72.93 | 65.67 | 59.85 | 62.72 | 68.02 |
| TRIDNR(Pan et al., 2016) | 84.51 | 85.69 | 81.61 | 81.08 | 87.23 | 88.87 | 92.01 | 91.62 | NTA | NTA |
| GAE(Kipf & Welling, 2016b) | 96.65 | 96.67 | 97.91 | 98.07 | 92.31 | 93.88 | 95.78 | 96.67 | 96.07 | 96.12 |
| G2G oh | 96.95 | 97.54 | 98.41 | 98.63 | 95.89 | 95.78 | 98.29 | 98.46 | 96.75 | 96.47 |
| G2G | 98.01 | 98.03 | 98.81 | 98.78 | 96.09 | 96.16 | 98.65 | 98.78 | 97.42 | 97.85 |
- Graph2Gauss は複数の実データセット(Cora-ML, Cora, Citeseer, DBLP, PubMed)でリンク予測性能が最先端または競合的である。
- 埋め込みサイズ L=128 でリンク予測の平均的な AUC と AP 指標で競合相手を上回る。
- 属性なしバリアント G2Goh でもいくつかのデータセットでいくつかのベースラインを上回る。
- Graph2Gauss は教師なし事前学習で Cora-ML、Citeseer、DBLP のノード分類性能を強力に示す。
- モデルは意味のある不確実性指標を提供し、それが近傍の多様性と intrinsic の潜在次元性を示す手助けになる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。