Skip to main content
QUICK REVIEW

[論文レビュー] A large-scale and fault-tolerant approach of subgraph mining using density-based partitioning

Sabeur Aridhi, Laurent d’Orazio|arXiv (Cornell University)|Nov 30, 2012
Advanced Database Systems and Queries参考文献 1被引用数 24
ひとこと要約

本稿では、MapReduceフレームワーク内での密度ベースのパーティショニングを用いて、クラスタ全体に計算負荷をバランスさせる大規模でフォールトトレラントな部分グラフマイニング手法を提案する。この手法は実行時間を顕著に短縮し、大規模なグラフデータベースにおけるスケーラブルな頻度の高い部分グラフの発見を可能にする。

ABSTRACT

Recently, graph mining approaches have become very popular, especially in domains such as bioinformatics, chemoinformatics and social networks. In this scope, one of the most challenging tasks is frequent subgraph discovery. This task has been motivated by the tremendously increasing size of existing graph databases. Since then, an important problem of designing efficient and scaling approaches for frequent subgraph discovery in large clusters, has taken place. However, failures are a norm rather than being an exception in large clusters. In this context, the MapReduce framework was designed so that node failures are automatically handled by the framework. In this paper, we propose a large-scale and fault-tolerant approach of subgraph mining by means of a density-based partitioning technique, using MapReduce. Our partitioning aims to balance computation load on a collection of machines. We experimentally show that our approach decreases significantly the execution time and scales the subgraph discovery process to large graph databases.

研究の動機と目的

  • ますます大きなグラフデータベースにおける頻度の高い部分グラフの発見の課題に対処すること。
  • 分散環境における既存の部分グラフマイニング手法のスケーラビリティの限界を克服すること。
  • ノード障害が一般的な大規模クラスタにおいてフォールトトレラント性を確保すること。
  • 計算ワークロードをマシン間でバランスさせ、実行効率を向上させること。
  • フォールトトレラントなMapReduceフレームワークを用いて、効率的かつスケーラブルな部分グラフマイニングを実現すること。

提案手法

  • 大規模なグラフデータベースを計算負荷がバランスの取れた部分グラフに分割するため、密度ベースのパーティショニングを適用する。
  • ノード障害を自動的に処理するMapReduceフレームワークを活用し、フォールトトレラント性を確保する。
  • クラスタノード間の負荷不均衡を最小限に抑えるパーティショニング戦略を設計する。
  • 部分グラフをワーカーノードにマップして、頻度の高いパターンを並列でマイニングする。
  • 密なグラフ領域を1つのパーティションにまとめるこで通信オーバーヘッドを低減する。
  • MapReduceの内在的なフォールトリカバリメカニズムを活用して、計算中に信頼性を維持する。

実験結果

リサーチクエスチョン

  • RQ1大規模クラスタにわたり部分グラフマイニングを効率的にスケーリングしつつ、フォールトトレラント性を維持するにはどうすればよいか?
  • RQ2密度ベースのパーティショニングは、分散部分グラフマイニングにおける負荷バランスにどの程度効果をもたらすか?
  • RQ3提案手法は、既存の手法と比較して実行時間を顕著に短縮できるか?
  • RQ4グラフデータベースのサイズが増加するにつれて、この手法はどの程度スケーリングするか?
  • RQ5フォールトトレラント性は、大規模クラスタにおける部分グラフマイニングの信頼性とパフォーマンスにどのような影響を与えるか?

主な発見

  • 提案手法は、大規模なグラフデータベースにおける部分グラフマイニングの実行時間を顕著に短縮する。
  • 密度ベースのパーティショニングは、クラスタ内のマシン間での計算負荷を効果的にバランスさせる。
  • フォールトトレラント性は、MapReduceフレームワークのネイティブなサポートにより、ノード障害時でも堅牢性を保証する。
  • 最適化されたパーティショニングと分散処理のおかげで、この手法は大規模なグラフデータベースへ効率的にスケーリングできる。
  • 密度ベースのパーティショニングとMapReduceの統合により、部分グラフマイニングのパフォーマンスと信頼性が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。