Skip to main content
QUICK REVIEW

[论文解读] A large-scale and fault-tolerant approach of subgraph mining using density-based partitioning

Sabeur Aridhi, Laurent d’Orazio|arXiv (Cornell University)|Nov 30, 2012
Advanced Database Systems and Queries参考文献 1被引用 24
一句话总结

本文提出了一种基于MapReduce框架内密度分割的大规模容错子图挖掘方法,通过负载均衡策略在集群中分配计算任务。该方法显著减少了执行时间,并实现了在大规模图数据库中可扩展的频繁子图发现。

ABSTRACT

Recently, graph mining approaches have become very popular, especially in domains such as bioinformatics, chemoinformatics and social networks. In this scope, one of the most challenging tasks is frequent subgraph discovery. This task has been motivated by the tremendously increasing size of existing graph databases. Since then, an important problem of designing efficient and scaling approaches for frequent subgraph discovery in large clusters, has taken place. However, failures are a norm rather than being an exception in large clusters. In this context, the MapReduce framework was designed so that node failures are automatically handled by the framework. In this paper, we propose a large-scale and fault-tolerant approach of subgraph mining by means of a density-based partitioning technique, using MapReduce. Our partitioning aims to balance computation load on a collection of machines. We experimentally show that our approach decreases significantly the execution time and scales the subgraph discovery process to large graph databases.

研究动机与目标

  • 解决日益庞大的图数据库中频繁子图发现的挑战。
  • 克服现有子图挖掘方法在分布式环境中可扩展性受限的问题。
  • 确保在节点故障频繁的大规模集群中具备容错能力。
  • 通过均衡各台机器的计算负载,提升执行效率。
  • 利用容错的MapReduce框架,实现高效且可扩展的子图挖掘。

提出的方法

  • 应用基于密度的分割方法,将大型图数据库划分为计算负载均衡的子图,以支持分布式处理。
  • 利用MapReduce框架自动处理节点故障,确保容错性。
  • 设计分割策略,以最小化集群节点间的负载不平衡。
  • 将子图映射到工作节点,实现频繁模式的并行挖掘。
  • 通过将图中的密集区域合并为单一分区,减少通信开销。
  • 利用MapReduce固有的故障恢复机制,在计算过程中保持可靠性。

实验结果

研究问题

  • RQ1如何在保持容错性的同时,高效地在大规模集群中扩展子图挖掘?
  • RQ2基于密度的分割在分布式子图挖掘中在多大程度上改善了负载均衡?
  • RQ3与现有方法相比,所提出的方法是否能显著减少执行时间?
  • RQ4随着图数据库规模的增加,该方法的可扩展性如何?
  • RQ5容错机制对大规模集群中子图挖掘的可靠性与性能有何影响?

主要发现

  • 所提出的方法显著缩短了大规模图数据库中子图挖掘的执行时间。
  • 基于密度的分割有效平衡了集群中各台机器的计算负载。
  • 容错性通过MapReduce框架原生支持,确保在节点故障时仍具鲁棒性。
  • 由于优化的分割策略与分布式处理,该方法能高效扩展至大规模图数据库。
  • 将基于密度的分割与MapReduce集成,显著提升了子图挖掘的性能与可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。