[論文レビュー] Distance Encoding: Design Provably More Powerful Neural Networks for Graph Representation Learning
距離エンコーディング(DE)を導入して、ノード集合の距離を用いることで GNN の表現力を 1-WL を超えて高める;DE-GNN および DEA-GNN フレームワークを提案し、ノード集合タスクで理論的保証と経験的改善を示す。
Learning representations of sets of nodes in a graph is crucial for applications ranging from node-role discovery to link prediction and molecule classification. Graph Neural Networks (GNNs) have achieved great success in graph representation learning. However, expressive power of GNNs is limited by the 1-Weisfeiler-Lehman (WL) test and thus GNNs generate identical representations for graph substructures that may in fact be very different. More powerful GNNs, proposed recently by mimicking higher-order-WL tests, only focus on representing entire graphs and they are computationally inefficient as they cannot utilize sparsity of the underlying graph. Here we propose and mathematically analyze a general class of structure-related features, termed Distance Encoding (DE). DE assists GNNs in representing any set of nodes, while providing strictly more expressive power than the 1-WL test. DE captures the distance between the node set whose representation is to be learned and each node in the graph. To capture the distance DE can apply various graph-distance measures such as shortest path distance or generalized PageRank scores. We propose two ways for GNNs to use DEs (1) as extra node features, and (2) as controllers of message aggregation in GNNs. Both approaches can utilize the sparse structure of the underlying graph, which leads to computational efficiency and scalability. We also prove that DE can distinguish node sets embedded in almost all regular graphs where traditional GNNs always fail. We evaluate DE on three tasks over six real networks: structural role prediction, link prediction, and triangle prediction. Results show that our models outperform GNNs without DE by up-to 15\% in accuracy and AUROC. Furthermore, our models also significantly outperform other state-of-the-art methods especially designed for the above tasks.
研究の動機と目的
- 標準 WLGNN が 1-WL テストによって制限される表現力の不足に対処する。
- ターゲットノード集合から全グラフノードへの距離を符号化する Distance Encoding(DE)を導入する。
- DE を特徴量として、またメッセージ集約を制御する触媒として DE を組み込む、2 つの DE 有効フレームワーク(DE-GNN と DEA-GNN)を提案する。
- DE に基づくモデルが疎な正則グラフにおけるほとんどの非同型構造を識別できることを示す理論保証を提供する。
- 実世界ネットワークにおけるノード構造的役割、リンク予測、三角形予測タスクで経験的に利得を示す。
提案手法
- DE を、ターゲットノード集合からの着地確率のベクトルに各グラフノードを写像する置換不変関数として定義する。距離には最短経路距離(SPD)や一般化 PageRank スコアなどを用いる。
- DE を (i) DE-GNN の追加ノード特徴として用いる場合、h_v^(0) に DE(v|S) を含める、または (ii) DEA-GNN の集約を制御する作用素として用いる場合、DE(u|v) が近傍の集約を導く。
- DE は以下のような単純な集約で実装可能であることを提供する。例えば zeta(u|S) = AGG{ zeta(u|v) : v in S } で、zeta(u|v) = f3(l_uv) かつ l_uv はランダムウォーク行列 W = AD^{-1} のべき乗から導かれる(SPD または GPR など)。
- 理論的結果は以下を示す。 (a) DE-GNN/DEA-GNN はほぼすべての疎な r-正則グラフで同じサイズのノード集合を埋め込み空間内で高い確率で区別でき、深さ O(log n) で。 (b) DE-1 が不十分な DRG に対する限界があり、DE-2 が役立つ場合がある。 (c) DE-1 は距離正則グラフでの限界がある。 (d) 高次 DE(p>=2)により DRG のいくつかの限界を克服可能。
実験結果
リサーチクエスチョン
- RQ1DE はノード集合の構造表現において 1-WL より厳密に表現力を高め得るのか?
- RQ2DE-GNN および DEA-GNN フレームワークは標準の WLGNN が失敗する疎な正則グラフにおいて非同型ノード集合を証明上識別できるか?
- RQ3特に距離正則グラフにおける DE ベースのアプローチの理論的限界は何か?
- RQ4DE-GNN および DEA-GNN は実ネットワーク上でノード構造的役割、リンク予測、三角形予測タスクで経験的改善をもたらすか?
主な発見
- DE を用いた GNN はほぼすべての疎な r-正則グラフに埋め込まれた同サイズのノード集合を SPD を DE 成分として使用することで高い確率で非同型に識別可能である。
- DE-GNN および DEA-GNN は、ノード構造的役割分類、リンク予測、三角形予測タスクにおいて、標準の WLGNN ベースラインより最大で平均精度または AUC が 15% 向上する。
- DE-1 は距離正則グラフで限界を持つが、DE-2(ノード対レベルのエンコーディング)により DE-1 が識別できない DRG の一部を識別可能。
- DE ベースの手法は、より高次の DE 表現を使用しない限り、いくつかの DRG 設定で 2-WL によって制約を受ける。
- 六つの実ネットワークでの経験的評価は、DE-GNN/DEA-GNN が Ring-GNN/PPGN および SEAL を含むベースラインを上回るタスクを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。