Skip to main content
QUICK REVIEW

[論文レビュー] Layered Label Propagation: A MultiResolution Coordinate-Free Ordering for Compressing Social Networks

Paolo Boldi, Marco Rosa|arXiv (Cornell University)|Nov 24, 2010
Complex Network Analysis Techniques被引用数 41
ひとこと要約

本稿では、スケーラブルで座標に依存しないノード順序付けアルゴリズムであるレイヤードラベルプロパゲーション(LLP)を提案する。この手法は、マルチスケールクラスタリングを活用することで、ソーシャルネットワークにおけるグラフ圧縮を顕著に改善する。外部メタデータに依存せずにノードの近接性と類似性を活用することで、ukデータセットではリンクあたり1.8ビットまで圧縮を削減し、最先端の外部的(extrinsic)手法を上回り、数十億ノードのグラフをメインメモリ上で解析可能にする。

ABSTRACT

We continue the line of research on graph compression started with WebGraph, but we move our focus to the compression of social networks in a proper sense (e.g., LiveJournal): the approaches that have been used for a long time to compress web graphs rely on a specific ordering of the nodes (lexicographical URL ordering) whose extension to general social networks is not trivial. In this paper, we propose a solution that mixes clusterings and orders, and devise a new algorithm, called Layered Label Propagation, that builds on previous work on scalable clustering and can be used to reorder very large graphs (billions of nodes). Our implementation uses overdecomposition to perform aggressively on multi-core architecture, making it possible to reorder graphs of more than 600 millions nodes in a few hours. Experiments performed on a wide array of web graphs and social networks show that combining the order produced by the proposed algorithm with the WebGraph compression framework provides a major increase in compression with respect to all currently known techniques, both on web graphs and on social networks. These improvements make it possible to analyse in main memory significantly larger graphs.

研究の動機と目的

  • 従来のURLベースのノード順序付けが適用できない大規模ソーシャルネットワークの圧縮課題に対処すること。
  • グラフ構造を効果的に保持する座標に依存しないインプリシットなノード順序付け手法を開発すること。
  • ウェブグラフおよびソーシャルネットワークの両方において、現在の最先端技術を超える圧縮比を実現すること。
  • 優れた圧縮によりメモリフットプリントを削減することで、数十億ノードのグラフに対する効率的でスケーラブルな処理を可能にすること。
  • インプリシットなクラスタリングに基づく順序付けが、現実世界のソーシャルネットワークデータセットにおいて、外部的でURLベースの順序付けを上回ることを示すこと。

提案手法

  • 異なるスケールのコミュニティを特定するためにノード間でラベルを伝搬するマルチスケールクラスタリングアルゴリズムであるレイヤードラベルプロパゲーション(LLP)を提案する。
  • タスク分解を用いてマルチコアアーキテクチャ上で並列実行を可能とし、6億ノードを超えるグラフを数時間で処理可能にする。
  • LLPで順序付けられたグラフにWebGraph圧縮フレームワークを適用し、類似性と局所性の性質を活かしてリンクあたりのビット数を最小限に抑える。
  • 階層的クラスタリングとラベルプロパゲーションを統合し、外部座標に依存せずに構造的近傍性を反映するノード順序を生成する。
  • 反復的精錬とギャップコスト解析を通じて、リンクあたりのビット数を最小化することで順序付けを最適化する。
  • 圧縮性能を評価するため、ベースライン順序付け(BFS、ランダム、グレイ、シングル)および他のクラスタリング手法(APM、APM+グレイ)とLLPを比較する。

実験結果

リサーチクエスチョン

  • RQ1座標に依存しないインプリシットなノード順序付け手法は、ソーシャルネットワークにおいて、語彙的URL順序付けなどの外部的手法を上回る圧縮を達成できるか?
  • RQ2マルチスケールクラスタリングは、グラフ圧縮のためのノード順序付けにおける局所性と類似性をどの程度向上できるか?
  • RQ3提案されたLLPアルゴリズムは、数十億ノードのグラフに対して高効率な圧縮を維持しながら、どのようにスケーリング可能か?
  • RQ4LLPとWebGraphフレームワークを組み合わせた場合、多様なソーシャルネットワークおよびウェブグラフデータセットでどの程度の圧縮比向上が達成可能か?
  • RQ5外部メタデータ(例:URL)が存在しない場合、効果的な圧縮は不可能なのか、それともインプリシットな構造的性質のみで優れた結果が得られるか?

主な発見

  • ukデータセットではLLPがリンクあたり1.8ビットにまで低下し、BFSベースラインの2.84ビットから33%の改善を達成した。
  • LiveJournalデータセットではLLPがリンクあたり10.90ビットを達成し、BFSベースライン(15.10ビット/リンク)と比較して28%の削減を実現した。
  • inデータセットではLLPがリンクあたり2.46ビットを達成し、BFSベースライン(3.51ビット/リンク)から30%の削減を実現し、ランダム順序付けよりも15%優れた性能を示した。
  • euデータセットではLLPがリンクあたり3.90ビットにまで低下し、BFS(4.93ビット/リンク)と比較して21%の改善を達成し、自然順序に対しては303%の圧縮利得を達成した。
  • LLPとBV圧縮フレームワークの組み合わせにより、ukデータセットでリンクあたり最大1.21ビットの圧縮が達成された。これは、最大圧縮時のApostolico–Drovandi法(1.44ビット/リンク)を上回る結果である。
  • 実験の結果、LLPは全テストデータセットで他の順序付け(BFS、ランダム、シングル、グレイ)を一貫して上回り、リンクあたりビット数の改善は10%から100%以上に達した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。