Skip to main content
QUICK REVIEW

[論文レビュー] Graph InfoClust: Leveraging cluster-level node information for unsupervised graph representation learning

Costas Mavromatis, George Karypis|arXiv (Cornell University)|Sep 15, 2020
Advanced Graph Neural Networks参考文献 33被引用数 48
ひとこと要約

Graph InfoClust (GIC) は、微分可能な K-means のクラスタレベル要約を取り入れて相互情報量を最大化することで、Deep Graph Infomax を拡張し、複数のデータセットにおいてノード分類・リンク予測・クラスタリングを改善する、よりリッチなノード埋め込みを生み出します。

ABSTRACT

Unsupervised (or self-supervised) graph representation learning is essential to facilitate various graph data mining tasks when external supervision is unavailable. The challenge is to encode the information about the graph structure and the attributes associated with the nodes and edges into a low dimensional space. Most existing unsupervised methods promote similar representations across nodes that are topologically close. Recently, it was shown that leveraging additional graph-level information, e.g., information that is shared among all nodes, encourages the representations to be mindful of the global properties of the graph, which greatly improves their quality. However, in most graphs, there is significantly more structure that can be captured, e.g., nodes tend to belong to (multiple) clusters that represent structurally similar nodes. Motivated by this observation, we propose a graph representation learning method called Graph InfoClust (GIC), that seeks to additionally capture cluster-level information content. These clusters are computed by a differentiable K-means method and are jointly optimized by maximizing the mutual information between nodes of the same clusters. This optimization leads the node representations to capture richer information and nodal interactions, which improves their quality. Experiments show that GIC outperforms state-of-art methods in various downstream tasks (node classification, link prediction, and node clustering) with a 0.9% to 6.1% gain over the best competing approach, on average.

研究の動機と目的

  • 局所的およびグローバルなグラフ構造の両方を符号化する教師なしグラフ表現学習を動機づける。
  • クラスタレベルの情報を活用して、グローバルなグラフ要約を超えるより豊かなノード間相互作用を捉える。
  • 相互情報量最大化と統合された微分可能な K-means ベースのクラスタ内容モジュールを提案する。
  • 標準ベンチマーク全体で、GIC がノード分類・リンク予測・クラスタリングを改善することを示す。

提案手法

  • ノード表現を平均化してノード埋め込みとグローバルなグラフ要約を得るために GNN エンコーダを使用する。
  • 微分可能な K-means レイヤーを介して K 個のクラスタレベル要約を導入し、各ノード i のクラスタ射影 z_i をクラスタセントロイドのソフト平均として計算する。
  • 識別器 D1 および DK を用いて、ノード埋め込み h_i とグローバル要約 s および対応するクラスタ要約 z_i との相互情報量を最大化する。
  • MI 目的を重み付き和 L = alpha L1 + (1 - alpha) L_K で結合し、グラフレベルとクラスタレベルの情報のバランスを取る。
  • Deep Graph Infomax (DGI) スタイルに従い、ノード特徴をシャッフルして負サンプルを作成することで入力を破損させる。
  • 1 層の GCN エンコーダ、クラスタレベルの MI のコサイン類似度、およびエンドツーエンドで微分可能なクラスタリング更新(ClusterNet スタイル)を用いて mu_k と r_ik を学習する。
  • Adam、Glorot 初期化、早期停止で学習する。埋め込み次元 F' をノード分類用に 64 と設定し、複数のデータセットで実験する。

実験結果

リサーチクエスチョン

  • RQ1微分可能なK-meansによるクラスタレベル要約を組み込むことで、グローバルなグラフ要約だけではなく教師なしのグラフ表現を改善できるか。
  • RQ2GIC で学習されたノード埋め込みはクラスタ構造をよりよくとらえ、下流タスクに対してより高品質な表現を生み出すか。
  • RQ3グラフレベルとクラスタレベルの相互情報量のトレードオフ(alpha で制御される)が、性能と埋め込みのジオメトリにどのような影響を与えるか。
  • RQ4GIC は DGI および他のベースラインと比較して、データセットや埋め込み次元を超えて頑健か。

主な発見

  • GIC は複数のデータセットでノード分類において DGI を一貫して上回り、データセットと設定に応じて平均で 0.4% を超え 2% までの改善を示す。
  • リンク予測とクラスタリングで顕著な改善を達成し、リンク予測で最大 2.5%、クラスタリングでは最良の競合手法に対して最大約 15.5 ポイントの改善を報告。
  • GIC は埋め込みのシルエットスコアが高く、埋め込み次元が制限されている場合でもクラス構造がより分離されている。
  • データセットを超えて、GIC は半教師あり手法と同等かそれ以上を示す一方で、競争力のある小さめの埋め込みサイズを使用する。
  • アブレーション研究は、グラフ MI とクラスタ MI のバランス(alpha おおよそ 0.5)および適切な beta と K の値が、クラスタリングと全体の性能を向上させることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。