Skip to main content
QUICK REVIEW

[論文レビュー] Simple Distributed Graph Clustering using Modularity and Map Equation.

Michael Hamann, Ben Strasser|arXiv (Cornell University)|Oct 26, 2017
Complex Network Analysis Techniques参考文献 19被引用数 4
ひとこと要約

本稿では、Thrillフレームワークを用いて大規模な重み付きグラフに対してモジュラリティおよびマップ方程式を最適化する、シンプルな分散グラフクラスタリングアルゴリズムであるDSLM-ModおよびDSLM-Mapを提案する。これらの手法は、現実のデータおよび合成ベンチマークにおいて高品質なクラスタリングを達成し、効率的でスケーラブルな性能を発揮する。

ABSTRACT

We study large-scale, distributed graph clustering. Given an undirected, weighted graph, our objective is to partition the nodes into disjoint sets called clusters. Each cluster should contain many internal edges. Further, there should only be few edges between clusters. We study two established formalizations of this internally-dense-externally-sparse principle: modularity and map equation. We present two versions of a simple distributed algorithm to optimize both measures. They are based on Thrill, a distributed big data processing framework that implements an extended MapReduce model. The algorithms for the two measures, DSLM-Mod and DSLM-Map, differ only slightly. Adapting them for similar quality measures is easy. In an extensive experimental study, we demonstrate the excellent performance of our algorithms on real-world and synthetic graph clustering benchmark graphs.

研究の動機と目的

  • 大規模で重み付きの無向グラフにおけるスケーラブルで高品質なグラフクラスタリングの課題に対処すること。
  • 内部が密で外部が疎である原則を形式化したモジュラリティおよびマップ方程式を最適化する分散アルゴリズムを開発すること。
  • Thrillフレームワークを用いた軽量なMapReduceモデル拡張を介して、効率的でスケーラブルなクラスタリングを可能にすること。
  • 多様な現実のデータおよび合成グラフベンチマークにおいて、このアプローチの有効性と適応性を示すこと。

提案手法

  • アルゴリズムは、大規模データ処理に効率的なように拡張されたMapReduceモデルを提供するThrillフレームワークに基づく分散的で反復的なアプローチを採用している。
  • DSLM-Modは、モジュラリティの増加を最大化するクラスタへのノードの再割り当てを反復的に実行することで、モジュラリティを最適化する。
  • DSLM-Mapは、グラフ上のランダムウォークの期待記述長を最小化するマップ方程式を用い、クラスタ割り当てをガイドする。
  • 両アルゴリズムは、分散システム全体にわたるクラスタ更新を伝搬するために、局所的計算とメッセージ伝達に依存している。
  • 同じ内部・外部エッジ密度の原則に基づく他の品質測定値に対しても、容易に適応可能であるように設計されている。
  • スケーラビリティを確保するため、効率的なデータパーティショニングとロードバランシングを実装している。

実験結果

リサーチクエスチョン

  • RQ1モジュラリティおよびマップ方程式に基づく分散グラフクラスタリングアルゴリズムは、スケール上で高品質な結果を達成できるか?
  • RQ2提案されたDSLM-ModおよびDSLM-Mapアルゴリズムは、現実のデータおよび合成グラフにおいて、既存手法と比較してどのように性能を発揮するか?
  • RQ3同じアルゴリズムフレームワークを、異なるクラスタリング品質測定値にどの程度適応可能にすることができるか?
  • RQ4Thrillフレームワークを用いた大規模グラフワークロードにおいて、アルゴリズムのスケーラビリティとパフォーマンスはいかがなものか?

主な発見

  • 提案されたDSLM-ModおよびDSLM-Mapアルゴリズムは、現実のデータおよび合成グラフベンチマークにおいて高品質なクラスタリングを達成している。
  • アルゴリズムは、Thrill分散処理フレームワーク上で実行された際、優れたスケーラビリティとパフォーマンスを示している。
  • 両アルゴリズムの実装はわずかに異なり、同じ原則に基づく異なる品質測定値への高いモジュラリティと再利用可能性を示している。
  • Thrillにおける拡張されたMapReduceモデルを活用することで、効率的で大規模なクラスタリングが可能になっている。
  • モジュラリティおよびマップ方程式が、最小限のアルゴリズム的変更で分散環境でも効果的に最適化可能であることが結果から確認された。
  • 内部・外部エッジ密度に基づく他のクラスタリング品質測定値に対しても、このフレームワークは容易に拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。