QUICK REVIEW

[論文レビュー] Hierarchical Graph Clustering using Node Pair Sampling

Thomas Bonald, Bertrand Charpentier|arXiv (Cornell University)|Jun 5, 2018

Complex Network Analysis Techniques参考文献 22被引用数 35

ひとこと要約

本稿では、ノードペアサンプリングに基づき、マルチスケールコミュニティ構造を捉えるパラメータフリーで高速かつメモリ効率の良い階層的グラフクラスタリングアルゴリズムを提案する。クラスタ間の縮約可能な距離を定義することで、最近傍チェーンアルゴリズムを用いた効率的な凝集的クラスタリングが可能となり、正規のデンドログラムを生成し、スペクトル法と比較して優れた速度で、実際および合成グラフにおける階層的組織を明らかにする。

ABSTRACT

We present a novel hierarchical graph clustering algorithm inspired by modularity-based clustering techniques. The algorithm is agglomerative and based on a simple distance between clusters induced by the probability of sampling node pairs. We prove that this distance is reducible, which enables the use of the nearest-neighbor chain to speed up the agglomeration. The output of the algorithm is a regular dendrogram, which reveals the multi-scale structure of the graph. The results are illustrated on both synthetic and real datasets.

研究の動機と目的

既存のグラフクラスタリングアルゴリズムが完全な階層的構造を欠き、調整が難しい解像度パラメータを必要としているという制限に対処する。
マルチスケールコミュニティ構造を明らかにするパラメータフリーで高速かつメモリ効率の良いアルゴリズムを開発する。
数学的に縮約可能なクラスタ距離測度を設計し、正規のデンドログラムを生成する効率的な階層的クラスタリングを可能にする。
Louvainのようなアルゴリズムが数ステップの集約しか提供しないのに対し、完全な階層的クラスタリングを提供する。

提案手法

アルゴリズムはノードペアサンプリングを用い、d(i,j) = p(i)p(j)/p(i,j) でノード間の距離を定義する。ここでp(i,j)は全重みで正規化されたエッジ重みである。
この距離は、階層的クラスタリングが正規のデンドログラムとして表現可能であることを保証する縮約可能なメトリックを用いてクラスタに拡張される。
最近傍チェーンアルゴリズムを適用し、各ステップでの距離計算を完全に回避することで、凝集的クラスタリングを高速化する。
この手法は凝集的であり、単一ノードクラスタから出発し、定義された距離に基づいて最も近いペアを反復的にマージする。
スパース行列演算を効率的に使用して実装され、スペクトル埋め込みや解像度パラメータのチューニングを回避する。
モジュラリティの原則に裏付けられつつも、動的距離計算によるスライディング解像度を導入することで、Louvainアルゴリズムを変更する。

実験結果

リサーチクエスチョン

RQ1パラメータフリーであり、マルチスケールコミュニティ構造を明らかにできるグラフクラスタリングアルゴリズムを設計できるか？
RQ2提案されたノードペアサンプリングによるクラスタ間距離は縮約可能か？これにより、正規のデンドログラムを生成する効率的な階層的クラスタリングが可能か？
RQ3スペクトルクラスタリングやLouvainと比較して、提案されたParisアルゴリズムのクラスタリング品質および実行時間はどのように異なるか？
RQ4このアルゴリズムは、現実世界のグラフに内在するマルチスケール性を反映する完全な階層的クラスタリングを生成できるか？

主な発見

OpenStreet上でParisアルゴリズムは正規化Dasguptaコスト0.0102を達成し、スペクトルクラスタリング（0.0103）を上回り、ほとんどのデータセットで同等以上を記録した。
Amazonグラフでは、Parisは43秒で正規化コスト0.0297を達成し、時間制限内で完了しなかったスペクトルクラスタリングと比較して顕著に高速であった。
DBLPグラフでは、Parisは31秒でコスト0.110を達成したのに対し、Louvainは52秒を要し、同等の品質を維持しながら優れた速度を示した。
大規模なYouTubeグラフでは、Parisは16分30秒で完了した。Louvainは8分で完了したが、完全な階層的出力を提供しなかったのに対し、Parisは完全な階層的出力を得た。
Wikipedia Schoolsではコスト0.402、Wikipedia Humansでは0.131を達成し、複雑な現実世界のデータセットでも強力な性能を示した。
すべてのテスト対象グラフにおいて、Parisはスペクトルクラスタリングよりも一貫して高速であり、最大サイズのグラフを除きすべて2分未満の実行時間であった。また、Louvainと比較してほとんどのデータセットで高速でありながら、より豊富な階層的出力を提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。