Skip to main content
QUICK REVIEW

[論文レビュー] GEMSEC: Graph Embedding with Self Clustering

Benedek Rózemberczki, Ryan Davies|arXiv (Cornell University)|Feb 12, 2018
Complex Network Analysis Techniques参考文献 40被引用数 66
ひとこと要約

GEMSEC は近傍保存とソーシャル正規化クラスタリングに guided 学習し、ノード埋め込みとクラスタリングを共同で学習することで、競争力のあるコミュニティ検出と下流タスクを可能にする。

ABSTRACT

Modern graph embedding procedures can efficiently process graphs with millions of nodes. In this paper, we propose GEMSEC -- a graph embedding algorithm which learns a clustering of the nodes simultaneously with computing their embedding. GEMSEC is a general extension of earlier work in the domain of sequence-based graph embedding. GEMSEC places nodes in an abstract feature space where the vertex features minimize the negative log-likelihood of preserving sampled vertex neighborhoods, and it incorporates known social network properties through a machine learning regularization. We present two new social network datasets and show that by simultaneously considering the embedding and clustering problems with respect to social properties, GEMSEC extracts high-quality clusters competitive with or superior to other community detection algorithms. In experiments, the method is found to be computationally efficient and robust to the choice of hyperparameters.

研究の動機と目的

  • グラフ埋め込み内のコミュニティ検出の改善を、埋め込み目的にクラスタリングを組み込むことで動機づけする。
  • 埋め込みとクラスタリング目的を同時に最適化するスケーラブルなシーケンスベース埋め込み法を開発。
  • 正則化を介してソーシャルネットワーク特性を取り入れ、自然で一貫性のあるコミュニティを生成。
  • 大規模グラフへのスケーラビリティとハイパーパラメータ設定への頑健性を示す。
  • 新しいソーシャルネットワークデータセットを提供し、クラスタリングと下流タスクの改善を示す。

提案手法

  • スキップグラム風の埋め込みに、埋め込み目的と共にクラスタリングコストを含めるよう拡張。
  • 負サンプリングを用いて分割関数を近似し、スケーラブルな最適化を可能にする。
  • 早期のクラスタリングが埋め込みを支配するのを防ぐための退火的クラスタリング重み γ を導入。
  • 近傍の重複をエッジの重みとして使用する滑らかさ正則化項を導入し、埋め込みとコミュニティの整合を改善。
  • 勾配ベースの更新(Adam)を用いてノード表現 f(v) とクラスタ中心 μ を最適化し、勾配の明示的式を示す。
  • GEMSEC のTensorFlowベースの実装とトレーニング手順(Algorithm 1)を提供。

実験結果

リサーチクエスチョン

  • RQ1埋め込みとクラスタリングを共同で学習して、コミュニティを意識した表現を改善できるか。
  • RQ2クラスタリング目的を追加することで、標準の近傍保存埋め込みよりモジュラリティとクラスタリング品質が向上するか。
  • RQ3近傍の重複に基づく滑らかさ正則化がコミュニティの一貫性とハイパーパラメータへの頑健性にどう影響するか。
  • RQ4GEMSEC バリアントは大規模グラフへのスケーラビリティとパラメータ選択への頑健性を持つか。
  • RQ5GEMSEC によって学習された埋め込みは音楽ジャンル推奨などの下流タスクを改善するか。

主な発見

  • GEMSEC バリアントは Facebook データセットで、いくつかの近傍ベースおよびコミュニティ志向のベースラインより高いモジュラリティを達成。
  • 正則化(Smooth GEMSEC)はハイパーパラメータの変化に対する頑健性とクラスタリング品質を一貫して向上。
  • GEMSEC2 および Smooth GEMSEC2 は多くのデータセットでベースラインを上回り、特に Athletes などで顕著な向上。
  • Deezer の音楽ジャンル予測では、GEMSEC2 がクロアチア、ハンガリー、ルーマニアで競合手法より高い F1 スコアを示す。
  • アプローチはグラフサイズに対して線形にスケールし、グラフの増大とともに効率を維持。
  • 実証的な結果は、共同埋め込みとクラスタリングが自然でよく分離されたコミュニティと、下流の性能向上を生むことを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。