[论文解读] Parallel Correlation Clustering on Big Graphs
本文提出了C4和ClusterWild!两种并行相关聚类算法,用于大规模图,实现可证明的近线性加速,同时保持强近似保证。C4通过并发控制确保3-近似比,而ClusterWild!为可扩展性牺牲一致性,实现(3+ε)近似且精度损失极小,使百亿条边的图在32核上可在5秒内完成聚类,最高实现15倍加速。
Given a similarity graph between items, correlation clustering (CC) groups similar items together and dissimilar ones apart. One of the most popular CC algorithms is KwikCluster: an algorithm that serially clusters neighborhoods of vertices, and obtains a 3-approximation ratio. Unfortunately, KwikCluster in practice requires a large number of clustering rounds, a potential bottleneck for large graphs. We present C4 and ClusterWild!, two algorithms for parallel correlation clustering that run in a polylogarithmic number of rounds and achieve nearly linear speedups, provably. C4 uses concurrency control to enforce serializability of a parallel clustering process, and guarantees a 3-approximation ratio. ClusterWild! is a coordination free algorithm that abandons consistency for the benefit of better scaling; this leads to a provably small loss in the 3-approximation ratio. We provide extensive experimental results for both algorithms, where we outperform the state of the art, both in terms of clustering accuracy and running time. We show that our algorithms can cluster billion-edge graphs in under 5 seconds on 32 cores, while achieving a 15x speedup.
研究动机与目标
- 为解决如KwikCluster等串行相关聚类算法的可扩展性瓶颈,这些算法需要多轮迭代,在大规模图上不切实际。
- 设计在多核系统上实现近线性加速的同时保持强理论近似保证的并行相关聚类算法。
- 探索并行聚类中一致性与性能之间的权衡,提出一种一致的(C4)和一种无协调的(ClusterWild!)方法。
- 在真实世界的大规模图上评估所提算法,并与最先进方法在运行时间、准确率和可扩展性方面进行比较。
提出的方法
- C4采用并发控制,在类似KwikCluster的并行剥离过程中确保可串行化,保证与串行算法相同的3-近似比。
- ClusterWild!采用无协调、异步的方法,允许无同步地并发剥离顶点,以微小的精度损失换取显著的加速。
- 两种算法均在多项式对数轮次内运行,使大规模图的高效扩展成为可能。
- 理论分析将ClusterWild!视为在‘噪声图’上运行的串行KwikCluster变体,从而获得(3+ε)OPT + O(ε·n·log²n)的近似保证。
- 算法使用原子操作和线程安全数据结构,以管理多核环境中的共享图状态。
- 实验评估在多个真实世界图上比较了性能,测量了运行时间、加速比、同步开销和聚类目标值。
实验结果
研究问题
- RQ1我们能否设计一种并行相关聚类算法,在多核系统上实现接近线性加速的同时,保持KwikCluster的3-近似比?
- RQ2在并行相关聚类中,一致性与性能之间的权衡是什么?我们能否设计一种无协调算法并提供可证明的近似保证?
- RQ3所提算法在百亿条边图上的可扩展性如何?能否在32核上实现5秒内聚类并获得高加速比?
- RQ4与串行基线相比,ClusterWild!放弃一致性后对聚类准确率的降级程度如何?
- RQ5在运行时间、准确率和同步开销方面,所提算法与现有最先进并行相关聚类方法相比如何?
主要发现
- C4和ClusterWild!在32核上对百亿条边图聚类时最高实现15倍加速,聚类时间低于5秒。
- 由于无协调开销,ClusterWild!始终比C4更快,异步变体优于BSP对应版本。
- BSP算法中的同步轮次数量随ε值增大而显著减少,当ε=0.9时,轮次数低于1000轮。
- C4的阻塞开销极小,阻塞顶点少于0.2%,在大型稀疏图上少于0.02%。
- 与串行KwikCluster相比,ClusterWild!的聚类目标值最多损失1%相对误差,异步变体在部分图上最多出现15%的退化。
- CDK这一先前的并行方法比C4和ClusterWild!慢2–3个数量级,且在小图上目标值更差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。