[论文解读] Fast Detection of Overlapping Communities via Online Tensor Methods on GPUs
本文提出了一种基于随机梯度下降的快速、GPU加速的在线张量分解方法,在混合成员随机块模型下用于检测大规模网络中的重叠社区。该方法在40K节点网络上用时不足30分钟,在120K节点网络上用时不足3小时,其速度和精度均优于当前最先进的变分方法。
We present a scalable tensor-based approach for detecting hidden overlapping communities under the mixed membership stochastic block model. We employ stochastic gradient descent for performing tensor decompositions, which provides flexibility to tradeoff node sub-sampling with accuracy. Our GPU implementation of the tensor-based approach is extremely fast and scalable, and involves a careful optimization of GPU-CPU storage and communication. We validate our results on datasets from popular social networks (Facebook, Yelp and DBLP), where ground truth is available, using notions of p-values and false discovery rates, and obtain high accuracy for membership recovery. We compare our results, both in terms of execution time and accuracy, to the state-of-the-art algorithms such as the variational method, and report better performance. For instance, on the Yelp network consisting of about 40,000 nodes and 500 communities, we recover the latent communities in under 30 minutes, and on the DBLP network consisting of about 120,000 nodes and 500 communities, we recover the latent communities in about 2.8 hours. In comparison, the variational method takes more than an order of magnitude higher execution time on the same datasets.
研究动机与目标
- 为在大规模网络中实现高计算效率的重叠社区检测提供解决方案。
- 通过支持在线、子采样友好的学习,改进现有张量分解方法以提升可扩展性。
- 在不牺牲准确性的前提下,缩短真实世界网络中社区检测的执行时间。
- 优化GPU-CPU内存与通信开销,以实现高性能张量分解。
- 通过p值和错误发现率等统计度量,在具有真实标签的真实社交网络数据集上验证该方法。
提出的方法
- 采用随机梯度下降(SGD)进行在线张量分解,实现子采样与准确性的灵活权衡。
- 采用混合成员随机块模型作为重叠社区结构的底层生成模型。
- 设计GPU优化实现,通过精细管理GPU-CPU数据存储与通信,最大化吞吐量。
- 应用在线学习以增量方式处理大规模网络,提升可扩展性,超越批处理方法。
- 利用张量分解从高阶网络交互中恢复潜在的重叠社区隶属关系。
- 通过p值和错误发现率等统计验证方法,评估恢复的隶属关系的可靠性。
实验结果
研究问题
- RQ1与批处理或变分方法相比,基于随机梯度下降的在线张量分解能否在大规模网络中实现更快的社区检测?
- RQ2在线学习过程中子采样在多大程度上影响重叠社区恢复的准确性?
- RQ3该GPU优化实现对Facebook、Yelp和DBLP等不同规模网络的可扩展性如何?
- RQ4与最先进的变分推理方法相比,该方法在执行时间和准确性上的性能差距有多大?
- RQ5当存在真实标签时,该方法能否在社区隶属关系恢复中保持高统计置信度?
主要发现
- 在Yelp网络(约40,000个节点,500个社区)上,该方法在30分钟内完成潜在社区的恢复。
- 在DBLP网络(约120,000个节点,500个社区)上,该方法在约2.8小时内完成社区检测。
- 在相同数据集上,该方法的执行时间比最先进的变分方法快一个数量级以上。
- 该方法在真实世界社交网络数据集上通过p值和错误发现率验证,实现了高准确度的隶属关系恢复。
- 基于在线SGD的张量分解支持可扩展且灵活的学习,可调节速度与精度之间的权衡。
- GPU优化的实现显著减少了CPU与GPU之间通信与存储瓶颈,提升了整体性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。