QUICK REVIEW

[論文レビュー] I/O-efficient algorithms for localized bisimulation partition construction and maintenance on massive graphs

Y Yongming Luo, George Fletcher|arXiv (Cornell University)|Oct 2, 2012

Topological and Geometric Data Analysis被引用数 4

ひとこと要約

本稿では、外部記憶モデルを用いてディスクI/Oを最小限に抑えることで、巨大グラフにおけるk-双対結合分割の構築および維持のための最初のI/O効率の良いアルゴリズムを提示する。この手法は、構築に対してO(k·sort(Et) + k·scan(Nt) + sort(|Nt|))、維持に対してO(k·sort(Et) + k·sort(Nt))の最適I/Oバウンドを達成し、実世界および合成グラフにおいて優れたスケーラビリティと効率性を示している。

ABSTRACT

In this paper, we present, to our knowledge, the fi??rst known I/O e??cient solutions for computing the k-bisimulation partition of a massive graph, and performing maintenance of such a partition upon updates to the underlying graph. Bisimulation is a robust notion of node equivalence which is ubiquitous in the theory and application of graph data. It defi??nes an intuitive notion of nodes in a graph sharing fundamental structural features. We consider in particular k-bisimulation, which is the standard variant of bisimulation where the topological features of nodes are only considered within a local neighborhood of radius k &gt; 0. The I/O cost of our partition construction algorithm is bounded by O(k.sort(Et) + k.scan(Nt) + sort(jNtj)), while our maintenance algorithms are bounded by O(k.sort(Et) + k.sort(Nt)). Here, Et and Nt are the number of disk pages occupied by the input graph's edge set and node set, resp., and sort(n) and scan(n) are the cost of sorting and scanning, resp., a ??le occupying n pages in external memory. Empirical analysis on a variety of massive real-world and synthetic graph datasets shows that our algorithms not only perform e??ciently, but also scale gracefully as graphs grow in size.

研究の動機と目的

外部記憶に格納された巨大グラフにおけるk-双対結合分割を計算するためのI/O効率の良いソリューションの不足に対処すること。
グラフが動的更新を受ける状況でも、k-双対結合分割を効率的かつスケーラブルに維持できることを可能にすること。
主記憶に収まらないほど大きなグラフを処理する上で、ディスクI/O操作を最小限に抑えるアルゴリズムの設計。
実世界および合成グラフワークロードにおける実際の性能を反映する理論的I/O複雑度バウンドの提供。
グラフサイズが増加するに従い、提案されたアルゴリズムが滑らかにスケーリングされ、高い効率性を維持することの実証。

提案手法

データはディスクに格納され、ページ単位でアクセスされる外部記憶モデルを用いる。これにより、高コストなI/O操作を最小限に抑える。
ノードのkホップ近傍の構造に基づいて、反復的にノードのパーティションを精緻化することでk-双対結合を計算する。
構築フェーズでは、エッジおよびノード集合に対して、ソーティングとスキャンの組み合わせを用いて同値なノードをグループ化する。
維持フェーズでは、更新されたエッジやノードからの変更を、k半径の近傍内で局所的な再計算によって効率的に伝搬する。
k-双対結合が局所的なグラフ構造にのみ依存することを活用し、I/Oコストが限定されたインクリメンタルアップデートを可能にする。
理論的I/Oバウンドは、標準的な外部記憶複雑度測定法（sort(n)：nページのソーティング、scan(n)：nページのスキャン）を用いて導出される。

実験結果

リサーチクエスチョン

RQ1外部記憶において、最適なI/O複雑度を達成しながら、k-双対結合分割の構築を効率的に行うことができるか？
RQ2グラフの更新後、低コストなI/Oでk-双対結合分割をインクリメンタルに維持できるか？
RQ3I/Oパフォーマンスの観点から、提案されたアルゴリズムはグラフサイズの増加に伴いどのようにスケーリングするか？
RQ4巨大グラフ上でのk-双対結合分割の構築および維持の理論的I/O複雑度は何か？
RQ5I/O効率の良いアルゴリズムは、実世界および合成グラフデータセットにおいて実用的なパフォーマンス向上を達成するか？

主な発見

k-双対結合分割の構築におけるI/Oコストは、O(k·sort(Et) + k·scan(Nt) + sort(|Nt|))で抑えられ、最適なI/O複雑度を達成している。
維持コストはO(k·sort(Et) + k·sort(Nt))で抑えられ、効率的なインクリメンタルアップデートを可能にしている。
実験的評価により、グラフサイズが増加するに従い、アルゴリズムが効率的に動作し、滑らかにスケーリングすることが確認された。
アルゴリズムは、実世界および合成の巨大グラフデータセットの両方で強力なパフォーマンスを示している。
理論的I/Oバウンドと観測されたパフォーマンスが一致しており、モデルの実用的妥当性が裏付けられている。
ソーティングおよびスキャンのプリミティブの使用により、標準的な外部記憶システムでも実装可能で効率的なアルゴリズムが実現されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。